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内 容 提 要 


本 书 作为 数据 挖 气 入 门 读物 ， 介 绍 了 数据 挖 所 的 基础 知识 、 基 本 工具 和 实践 方法 ， 通 过 循序 渐进 地 讲 
解 算法 ， 带 你 轻松 踏 上 数据 挖掘 之 旅 。 本 书 采用 理论 与 实践 相 结 合 的 方式 ， 呈 现 了 如 何 使 用 决策 树 和 随机 
森林 算法 预测 美国 职业 篮球 联赛 比赛 结果 ， 如 何 使 用 亲 和 性 分 析 方 法 推荐 电影 ， 如 何 使 用 朴素 贝 叶 斯 算法 











进行 社会 媒体 挖掘 ， 等 等 。 本 书 也 涉及 补 

















本 书面 向 愿意 学 习 和 尝试 数据 挖掘 的 程序 员 。 
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译 者 厅 


云 计 算 、 大 数据 、 物 联网 ， 这 几 年 很 火 。 到 现在 为 止 ， 人 们 对 云 计算 的 激情 已 经 回落 到 比较 
理智 的 水 平 , 各 种 云 基础 设施 已 投入 使 用 , 支撑 起 关系 国计民生 的 信息 化 应 用 。 物 联网 还 在 建设 
中 , 家电 智能 化 、 个 人 健康 信息 数字 化 、 交 通 智能 化 等 趋势 在 我 们 身边 悄然 推进 。 开 放 互 联 的 概 
念 不 再 周 于 传统 的 互联 网 思维 ,我们 生活 所 触及 的 一 切 正在 被 编织 到 一 张 包罗 万 象 的 大 网 之 中 。 
它 将 会 对 社会 产生 何 种 影响 ,我们 拭目以待 。 虽然 大 数据 现在 很 火 , 各 种 大 数据 研究 中 心 相继 建 
立 , 但 这 只 是 刚刚 开始 。 随 着 更 多 的 人 和 设备 接 和 人 互联 网 ， 随 着 人 们 对 世界 认识 的 加 深 和 新 工具 
的 研发 ， 数 据 规模 将 加 速 膨胀 ， 超 乎 想象 。 大 数据 的 春天 才刚 刚 到 来 。 数 据 采集 能 力 上 去 之 后 ， 
势必 要 求 数据 挖掘 能 力 跟 得 上 。 正 如 作者 在 第 12 章 中 讲 到 的 ， 大 数据 带 来 的 一 个 挑战 就 是 , 重要 
言 息 可 能 被 垃圾 信息 淹没 。 由 此 我 们 不 难 推断 出 数据 挖掘 技术 在 发 现 、 突 显 和 传承 人 类 文明 方面 
将 起 到 不 可 替代 的 作用 。 本 书 讲解 的 正 是 大 数据 时 代 的 核心 技能 一 一 数据 挖掘 技术 ， 可 以 预见 该 
项 技术 将 发 挥 出 越 来 越 重要 的 作用 。 


本 书 讲解 了 如 何 用 Python 语 言 进行 数据 挖掘 。Python 是 一 种 通用 型 编程 语言 ， 它 简单 易学 ， 
上 手 快 ， 有 着 丰富 的 第 三 方 库 ， 社区 氛围 友好 。 从 数据 采集 、 分 析 一 直到 应 用 开发 层面 ，Python 
都 有 成 熟 的 库 。 使 用 Python 语 言 进行 开发 ， 无 需 过 多 关注 语言 细节 ， 开 发 者 可 以 将 主要 精力 放 到 
业务 本 身 。 审 惠 使 用 下 ython Notebook 作 为 开发 环境 ， 它 将 代码 执行 、 富 文本 、 公 式 编辑 、 绘 图 、 
多 媒体 等 功能 集合 在 一 起 , 是 科学 计算 和 数据 分 析 的 好 工具 。 书 中 所 涉及 的 数据 挖掘 对 象 很 丰富 ， 
有 Iris 蕊 尾 花 卉 数据 集 、Ionosphere 电 离 层 数 据 集 、NBA 比 赛 结果 、MovieLens 电 影评 分 数据 集 、 
古 登 保 计 划 所 收集 的 图 书 、 安 然 公 司 邮 件数 据 集 、 博 客 语 料 、CIFAR-10 图 像 数 据 集 等 。 从 这 些 
分 属于 不 同行 业 的 数据 集 ， 也 能 一 宕 数据 挖掘 应 用 之 广 。 此 外 ， 作 者 还 介绍 了 从 Twitter 、Reddit 
网 站 采集 数据 的 方法 。 在 算法 方面 ， 除 了 常见 的 决策 树 、 朴 素 贝 叶 斯 、 支 持 向 量 机 等 ， 作 者 还 介 
绍 了 最 近 几 年 非常 热 的 深度 学 习 。 大 数据 、 深 度 学 习 对 计算 能 力 要 求 很 高 , 作者 介绍 了 如 何在 亚 
马 逊 云 主机 上 运行 MapReduce 任 务 。 这 本 书 由 浅 入 深 ,以 真实 数据 为 研究 对 象 ， 逐 渐 增 大 数据 集 
规模 ， 真 刀 实 枪 地 向 读者 介绍 了 Python 数 据 挖掘 是 怎么 回 事 ,并 给 读者 进一步 学 习 指 出 了 多 种 可 
能 的 方向 。 工程 实 践 之 余 , 作者 还 不 忘 介绍 数据 挖掘 常用 思路 ， 毫 不 保留 地 把 自己 积 撕 的 宝贵 经 
验 传授 给 读者 。 这 一 点 我 在 阅读 过 程 中 , 深 有 体会 。 正 如 作者 自己 在 前 言 里 所 写 的 , 书 中 不 会 涉 
及 大 量 公 式 推 导 , 所 有 的 算法 都 是 以 很 直观 的 形式 向 读者 介绍 ,所 以 即使 你 缺乏 一 定 的 数学 基础 ， 
只 要 肯 用 功 ， 也 不 用 担心 自己 读 不 懂 。 































































































































































































回 到 七 八 年 前 ， 当 我 还 是 一 名 英语 专业 学 生 的 时 候 , 我 压根 不 会 想到 有 一 天 会 学 编程 ,会 去 
翻译 这 样 一 本 书 。 后 来 有 幸 读 了 计算 机 辅助 翻译 这 样 一 个 专业 ,， 才 开始 接触 到 计算 机 知识 , 但 是 
当 父亲 跟 我 提起 数据 建 模 时 ,我 还 是 一 脸 茫 然 。 研 究 生 几 年 ， 系 里 为 我 们 这 些 非 计算 机 背景 的 学 
生 开 设 了 Python 编程 课 。 从 那 时 起 我 就 有 事 没 事 学 点 Python ， 一 开始 是 照 着 Natural Laneuage 
Processing with Python 的 示例 敲 ， 自 那 时 起 五 年 之 后 我 竞 想 起 给 NLTK 提 交 几 处 微小 的 改动 。 大 约 
是 为 了 激励 我 这 个 后 生 继续 为 他 们 服务 , “居心 世 测 ”的 Steven Bird 竟 把 我 加 入 到 贡献 者 名 单 里 。 
去 中 关 村 图 书 大 厦 的 时 候 ， 我 常常 喜欢 浏览 一 下 语言 与 程序 设计 书架 上 有 没有 关于 Python 的 新 
书 ， 碰 到 喜欢 的 就 翻 翻 看 ， 这 几 年 眼看 着 Python 书 多 了 起 来 ， 很 是 欣慰 。 此 外 ， 我 去 北大 、 北 外 
旁听 过 计算 语言 学 、 概 率 统计 等 课程 , 去 北航 旁听 过 计算 机 系统 基础 , 看 过 Udacity 的 统计 学 入 门 
和 吴 恩 达 老 师 的 机 器 学 习 课程 视频 ， 兴 致 来 了 也 曾 捧 着 Rosen 的 《离散 数学 及 其 应 用 》 读 上 几 页 。 
工作 中 ,经常 帮 同事 写 个 简单 的 Python 程序 处 理 数据 ， 最 近 还 帮 他 们 疏 取 了 一 个 网 站 。PyCon 北 
京 , 我 连 着 去 了 三 四 届 了 , 每 次 都 有 或 多 或 少 的 收获 ，2015 年 我 见 过 一 位 大 神 行云流水 般 演示 用 
pandas 处 理 数据 ,很 受 震 撼 。 以 上 就 是 我 与 Python、 数 据 挖掘 的 交集 。 我 想 说 的 是 ， 不 要 再 用 上 
学 时 读 的 那个 专业 的 思维 局 限 自己 的 发 展 , 学 科 的 界限 在 模糊 ,融合 的 趋势 在 增强 ,数学 的 重要 
性 在 提升 。 提 到 数学 , 今天 还 看 了 一 个 TED 演 讲 视频 , 说 的 是 借助 计算 机 改变 传统 数学 教育 方法 。 
这 种 理念 什么 时 候 能 应 用 到 一 线 教 学 ， 非 常 值得 期 待 。 生 在 这 个 充满 变革 的 时 代 ， 倍 感 幸 运 。 


以 我 有 限 的 水 平 去 翻译 这 样 一 本 书 ， 心 里 不 免 焦 虑 。 遇 到 问题 ， 我 四 处 寻找 能 人 相助 。 感 谢 
作者 Robert Layton, 我 每 次 发 邮件 向 他 求教 或 确认 问题 , 他 总 能 很 快 地 回复 我 , 有 时 第 二 天 回复 ， 
还 会 说 抱 车 回复 晚 了 。 感 谢 我 的 同学 黄 子 轩 、 孙 伟 、 周 星 ， 他 们 在 我 学 习 计算 机 科学 的 路 上 给 予 
了 很 多 指导 和 帮助 。 翻 译本 书 时 ， 我 还 向 子 轩 求 证 作者 在 第 6 章 给 出 的 示例 是 否 有 误 。 感 谢 上 海 
大 学 研究 生 钱 亦 欣 同学 ， 他 帮 我 审读 了 第 3 章 ,， 并 给 出 若干 很 专业 的 修改 意见 ， 上 述 第 6 章 那 处 问 
题 , 我 也 曾 向 他 请 教 过 , 最 终 证 明 是 原 书 弄 错 了 。 感谢 李 少 华 , 他 帮 有 我 弄 明白 了 Python 在 Windows 
系统 中 的 环境 变量 设置 方法 。 感谢 陈 健 锁 , 我 曾 就 数据 库 相 关 术 语 向 他 请 教 。 感谢 图 灵 的 朱 剖 编 
辑 ， 是 她 促成 了 我 最 终 去 翻译 这 样 一 本 趣味 盎然 的 书 ! 感谢 图 灵 公 司 , 我 是 你 们 忠实 的 读者 ! 最 
后 感谢 我 的 妻子 ， 她 承担 了 照顾 女儿 的 重任 。 女 儿 的 出 生 ， 让 我 惊叹 于 生命 的 奇妙 ! 感谢 岳父 后 
母 一 家 人 帮忙 照看 孩子 , 我 才 有 时 间 去 做 翻译 。 感谢 我 的 父亲 、 姐 姐 , 他 们 以 我 翻译 本 书 为 骄傲 。 


由 于 本 人 学 识 有 限 ， 且 时 间 仓 促 ， 书 中 翻译 错误 、 不 当 和 芯 漏 之 处 在 所 难免 ， 望 读者 批评 
首 正 。 
































































































































































































































杜 春晓 
2016 年 1 月 3 日 


了 路 


前 








你 是 不 是 向 往 数 据 挖掘 的 殿堂 ， 却 不 得 其 门 而 入 ? 如 果 是 的 话 ， 这 本 书 就 是 为 你 而 写 的 。 


很 多 讲授 数据 挖掘 的 书 涵盖 了 大 量 数学 知识 ,倘若 读者 有 较 好 的 数学 背景 , 这 自然 不 错 , 但 
我 觉得 这 些 书 往往 只 见 树木 不 见 森 林 ; 也 就 是 说 , 它们 过 于 关注 算法 的 工作 原理 ,而 忘记 了 我 们 
使 用 这 些 算法 的 初衷。 

本 书 的 目标 读者 是 具备 一 定编 程 能 力 、 淘 望 学习 数 据 挖掘 的 人 。 我 的 目标 是 ， 如果 你 认真 学 
完 本 书 ， 能 较 好 地 理解 数据 挖掘 的 基础 知识 ,掌握 用 数据 挖掘 知识 解决 问题 的 最 佳 实践 ， 此 外 还 
能 从 书 中 找到 几 个 值得 你 深入 研究 的 方向 。 

本 书 的 每 一 章 都 会 介绍 一 个 新 的 主题 ， 我 会 给 出 该 主题 的 相关 算法 和 数据 集 。 因 此 ,各 章 主 
题 之 间 跳 跃 有 点 大 ， 阅 读本 书 的 过 程 中 需要 你 的 大 脑 能 快速 切换 。 每 学 完 一 章 ， 你 都 要 思考 一 下 
有 没有 什么 办 法 能 够 提升 该 章 中 算法 的 效果 ， 然 后 尝试 去 实现 它 ! 

我 最 言 欢 的 格言 中 有 一 条 出 自 莎 士 比 亚 的 《亨利 四 直 》”: 

但 是 你 叫 他 们 的 时 候 ， 他 们 真 的 会 来 吗 ? 

在 剧 中 ， 有 人 声称 自己 会 招魂 ， 于 是 霍 菊 波 (Hotspur ) 回复 了 上 面 这 句 话 。 截 菊 波 的 意思 
是 每 个 人 都 会 招魂 ， 但 问题 是 招 过 之 后 ， 魂 来 不 来 。 

跟 招 魂 类 似 , 学 习 数 据 挖掘 无 外 乎 做 实验 ,获得 结果 。 实 现 一 个 新 的 数据 挖掘 算法 或 是 改善 
现 有 实验 结果 的 想法 ,每 个 人 都 能 提出 来 ,但 真正 重要 的 是 你 能 不 能 实现 它 , 还 有 结果 是 否 尽 如 
人 意 。 





























































































































本 书 主要 内 容 


第 1 章 “开始 数据 挖掘 之 放 ， 介 绍 我 们 即将 用 到 的 技术 ， 接 着 通过 讲解 两 个 基础 算法 的 实现 
方法 达到 热身 目的 。 






































QD《 享 利 四 世 》 是 莎士比亚 所 著 的 历史 剧 , 分 为 上 下 两 篇 。 接 下 来 这 句 台 词 出 自 上 篇 第 三 幕 第 一 场 , 原文 为 “But will 
they come when you do call for them? ”。 遵照 朱 生 豪 先 生 的 译 法 ,将 “Hotspur” 译 为 “ 霍 次 波 ”。 一 一 译 者 注 


























第 2 章 用 scikit-learn 估 计 句 分 类 ， 涵 盖 了 数据 挖掘 的 一 个 重要 主题 一 分类。 这 一 音 
介绍 将 数据 挖掘 流程 标准 化 的 流水 线 结构 ， 便 于 你 管理 实验 流程 。 


第 3 章 ” 用 决策 树 预测 获胜 球 队 ， 介 绍 严 策 香 和 随机 森林 两 个 新 算法 。 我 们 将 通过 抽取 区 分 
度 高 的 特征 来 预测 获胜 选手 。 


第 4 章 ”用 亲 和 性 分 析 方 法 推荐 电影 ， 思 考 根据 以 往 消费 记录 推荐 产品 的 问题 ， 介 绍 Apriori 
算法 。 


第 5 章 ”用 转换 器 抽取 特征 ， 介 绍 不 同类 别 特征 的 抽取 方法 及 不 同 数据 集 的 处 理 方法 。 


第 6 章 “使 用 朴素 贝 叶 斯 进行 社会 媒体 挖掘 ， 使 用 朴素 贝 叶 斯 算法 自动 分 析 来 自 社交 网 站 
Twitter 的 文本 信息 。 


第 7 章 ”用 图 挖掘 找到 感 兴趣 的 人 ， 采 用 聚 类 和 网 络 分 析 方法 ， 发 现 社会 媒体 上 感 兴趣 的 人 。 


第 8 章 ”用 神经 网 络 破解 验证 码 ， 从 图 像 中 抽取 信息 ， 然 后 训练 神经 网 络 ， 用 来 发 现 图 像 中 
的 单词 和 字母 。 


第 9 章 ”作者 归属 问题 ,通过 抽取 文本 特征 ,使 用 支持 向 量 机 算法 ， 找 出 文档 的 作者 。 

第 10 章 ”新闻 语 料 分 类 ， 使 用 k-means 限 类 算法 ， 根 据 新 闻 文章 内 容 进 行 分 类 。 

第 11 章 ”用 深度 学 习 方 法 为 图 像 中 的 物体 进行 分 类 ， 采 用 深度 神经 网 络 算法 确定 图 像 中 的 物体 。 
第 12 章 ”大 数据 处 理 ， 探 讨 对 大 数据 进行 数据 挖掘 的 流程 及 方法 。 

附录 ”依次 介绍 各 章 的 参考 资料 ， 便 于 读者 深入 了 解 各 章 内 容 。 
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本 书 的 阅读 前 提 


毫 无 疑问 ， 要 完成 本 书 的 学 习 ， 你 需要 准备 一 台电 脑 。 电 脑 不 能 太 旧 ， 但 也 不 用 配置 太 高 。 
只 要 是 最 近 几 年 的 处 理 融 ( 2010 年 以 后 )，4GB 内 存 (RAM ) 就 足够 了 。 在 性 能 稍 差 一 点 的 机 器 
上 运行 本 书 中 的 大 部 分 代码 ， 应 该 也 不 会 有 问题 。 


最 后 两 章 的 代码 对 机 器 性 能 要 求 较 高 。 在 这 两 章 中 ， 我 介绍 了 如 何 使 用 亚马逊 网 络 服务 
( AWS ) 运行 代码 。 这 多 少 可 能 会 让 你 破 费 一 些 ， 与 在 本 地 运行 代码 相 比 ， 好 处 是 不 用 做 那么 多 
系统 配置 。 如 果 你 不 想 掏 钱 购买 亚马逊 的 网 络 服务 ,可 以 在 本 地 主机 上 配置 好 所 有 的 工具 ， 当 然 
你 需要 一 台 配 置 较 高 的 计算 机 : 2012 年 及 以 后 的 处 理 器 ， 内 存在 4GB 以 上 。 


我 推荐 使 用 Ubuntu 操作 系统 ， 但 是 本 书 示例 代码 也 可 以 在 Windows、Mac 和 其 他 任何 Linux 
系统 上 运行 。 然 而 ， 你 可 能 需要 参考 系统 的 相关 文档 来 完成 必要 工具 的 安装 。 
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本 书 中 ， 我 将 使 用 命令 行 工具 pip 来 安装 我 们 用 到 的 Python 库 。 你 也 可 以 使 用 Anaconda， 下 
载 地 址 为 http:/continuum.io/downloads。 

本 书 所 有 代码 都 已 在 Python 3 中 测试 过 。 大 部 分 代码 无 需 修改 就 能 在 Python 2 下 运行 。 如 果 你 
遇 到 什么 问题 解决 不 了 ， 请 发 邮件 给 我 们 ， 我 们 帮 你 看 看 怎么 解决 。 








本 书 的 目标 读者 
本 书 是 写 给 那些 想 把 数据 挖掘 技术 应 用 到 实际 项 目 中 ， 却 不 知道 怎么 开始 的 程序 员 。 


如 果 你 没有 编程 经 历 , 我 强烈 建议 你 在 学 习 本 书 之 前 ,至 少 先 了 解 一 下 编程 的 基础 知识 。 本 
书 直接 略 过 这 部 分 内 容 ， 也 不 会 把 过 多 精力 放 在 代码 的 具体 实现 上 。 也 就 是 说 , 简要 学 习 一 下 编 
程 基 础 知识 再 来 学 习 本 书 就 行 。 本 书 不 对 你 的 编程 技能 做 过 高 要 求 , 所 以 你 没 必要 先 成 为 编程 高 
手 ! 

我 强烈 建议 在 阅读 本 书 前 最 好 先 积累 一 些 Python 编 程 经 验 。 如 果 没 有 的 话 ， 也 没关系 ,但 是 
你 可 能 需要 先 瞧 瞧 Python 代 码 是 怎么 回 事 ， 可 能 的 话 先 看 看 IPython Notebook 的 教程 。 用 IPython 
Notebook 写 程序 ， 跟 用 其 他 编辑 器 写 程序 ( 比如 使 用 功能 全 面 的 IDE 编 写 Java 程 序 ) 有 一 定 区 别 。 


























































































































排版 约定 
本 书 使 用 不 同 的 文本 样式 来 区 分 不 同类 别 的 内 容 。 以 下 是 常用 样式 及 其 用 途 说 明 。 
首先 ， 我 们 来 看 一 下 最 重要 的 代码 所 使 用 的 样式 。 





a 
print ("Welcome to the book") 


请 留意 缩 进 。 缩 进 在 Python 中 表示 层级 的 概念 。 本 书 中 ， 我 们 使 用 四 个 空格 来 表示 缩 进 。 你 
可 以 按照 自己 的 喜好 ， 使 用 不 同 数量 的 空格 〈 或 制 表 符 )， 但 是 应 该 保持 一 致 。 如 果 你 被 缩 进 搞 
糊涂 了 ， 请 参考 本 书 的 示例 代码 。 

在 正文 中 引用 代码 时 ， 会 使 用 下 面 这 种 样式 : I'11 use this format。 你 不 需要 在 IPython 
Notebook 中 输入 这 些 代码 ， 除 非 我 在 正文 中 明确 要 求 你 这 么 做 。 


所 有 的 命令 行 输入 或 输出 都 使 用 下 面 这 种 样式 : 





























# cp filel.txt file2.txt 


新 的 术语 和 重要 的 词语 使 用 楷体 。 


了 


= 





| 全 此 图 标 表 示警 告 或 重要 信息 。 
< 
Q 此 图 标 表示 提示 或 技巧 。 


读者 反馈 


我 们 热忱 地 欢迎 读者 朋友 给 予 我 们 反馈 , 告诉 我 们 你 对 于 这 本 书 的 所 思 所 想 喜欢 
不 喜欢 哪些 内 容 。 大 家 的 反馈 对 我 们 来 说 至 关 重 要 , 将 能 帮助 我 们 确定 到 底 哪些 内 容 是 读者 





需要 的 。 
妇 


巧 











你 


或 是 
真正 





果 你 有 一 般 性 建议 的 话 ,请 发 邮件 至 feedback@packtpub.com , 请 在 邮件 主题 中 写 清 书 的 名 称 。 











如 果 你 是 某 一 方面 的 专家 ， 对 某 个 主题 特别 感 兴趣 ， 有 意向 自己 或 
请 到 www.packtpub.com/authors 查 阅 我 们 为 作者 准备 的 帮助 文档 。 








是 与 别人 合作 写 一 本 书 ， 


客户 支持 

为 自己 拥有 一 本 Packt 出 版 的 书 而 自豪 吧 ! 为 了 让 你 的 书 物 有 所 值 ， 我 们 还 为 你 准备 了 以 下 
内 容 。 
下 载 示 例 代码 











如 果 你 是 从 http://www.packtpub.com 网 站 购买 的 图 书 ， 用 自己 的 账号 登录 后 ， 可 以 下 载 所 有 
已 购 图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 ， 请 访问 http://www.packtpub.com/support 网 站 


并 注册 ， 我 们 会 用 邮件 把 代码 文件 直接 发 给 你 。 





下 载 配套 PDF 文件 
我 们 还 为 你 准备 了 一 个 PDF 文件 , 该 文件 包含 书 中 的 所 有 





屏幕 截图 / 





补 图 书 中 黑 日 图 像 的 不 足 ， 有 助 于 你 理解 本 书 内 容 。 该 文件 的 下 载 地 











于 
| 
(和 





勘误 表 

即使 我 们 竭尽 所 能 来 保证 图 书 内 容 的 正确 性 , 错误 也 在 所 难免 。 如 果 你 在 我 们 出 版 的 任何 一 
本 书 中 发 现 错误 一 一 可 能 是 在 文本 或 代码 中 一 一 倘若 你 能 告诉 我 们 , 我 们 将 会 非常 感激 。 你 的 善 
举 足 以 减少 其 他 读者 在 阅读 出 错位 置 时 的 纠结 和 不 快 , 帮助 我 们 在 后 续 版 本 中 更 正 错误 。 如 果 你 
发 现任 何 错误 ， 请 访问 http://www.packtpub.com/submit-errata ， 选 择 相 应 书籍 ， 点 击 “Errata 
Submission Form” 链 接 , 输入 错误 之 处 的 具体 信息 。 你 提交 的 错误 得 到 验证 之 后 ,我 们 就 会 接受 
你 的 建议 ,该 处 错误 信息 将 会 上 传 到 我 们 的 网 站 或 是 添加 到 已 有 勘误 表 的 相应 位 置 。 


访问 https://www.packtpub.com/books/content/support， 在 搜索 框 中 输入 书 名 ,可 查看 该 图 书 已 
有 的 勘误 信息 。 这 部 分 信息 会 在 Errata 部 分 显示 。 



























































侵权 

所 有 媒体 在 互联 网 上 都 面临 的 一 个 问题 就 是 侵权 。 对 Packt 来 说 ， 我 们 严格 保护 我 们 的 版 权 
和 许可 证 。 如果 你 在 网 上 发 现 针对 我 们 出 版 物 的 任何 形式 的 盗版 产品 , 请 立即 告知 我 们 地 址 或 网 
站 名 称 ， 以 便 我 们 进行 补救 。 

请 将 盗版 书籍 的 网 站 地 址 发 送 到 copyright@packtpub.com。 

如 果 你 能 这 么 做 , 就 是 在 保护 我 们 的 作者 , 保护 我 们 ,只 有 这 样 我 们 才能 继续 以 优质 内 容 回 
馈 像 你 这 样 热 心 的 读者 。 























问题 


你 对 本 书 有 任何 方面 的 问题 ， 都 可 以 通过 questions@packtpub.com 邮 箱 联 系 我 们 ， 我 们 也 将 
尽 最 大 努力 来 帮 你 答疑 解 惑 。 
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开始 数据 挖掘 之 旅 











我 们 今天 的 数据 采集 规模 在 人 类 历史 上 是 空前 的 , 日 常生 活 也 越 来 越 依赖 我 们 所 采集 的 这 些 
言 息 。 我 们 希望 计算 机 能 把 网 页 翻译 成 其 他 语言 ， 预 报 天 气 ， 推 荐 我 们 喜欢 的 书 ， 诊 断 我 们 的 健 
康 问 题 。 类 似 的 需求 还 会 继续 增长 ， 我 们 会 需要 更 多 的 应 用 和 更 高 的 精确 性 。 数 据 挖掘 技术 可 以 
用 来 训练 计算 机 ,使 其 根据 已 有 数据 做 出 决策 。 如 今 ， 数 据 挖掘 技术 已 成 为 支撑 很 多 高 科技 系统 
的 骨干 。 


Python 的 迅速 普及 并 非 偶然 。 它 的 灵活 度 高 ; 模块 众多 ， 可 以 执行 很 多 任务 ; 比 起 其 他 任何 
编程 语言 ，Python 代 码 通 常 更 为 简洁 ， 可 读 性 更 强 。Python 在 数据 挖掘 领域 已 经 形成 了 一 个 由 研 
究 员 、 从 业者 和 新 手 组 成 的 氛围 活路 的 大 社区 。 
本 章 将 介绍 如 何 使 用 Python 进行 数据 挖掘 ， 主 要 会 涉及 以 下 几 个 主题 。 
口 数据 挖掘 简介 及 其 应 用 场景 
口 搭建 Python 数 据 挖掘 环境 
口 亲 和 性 分 析 示 例 : 根据 购买 习惯 推荐 商品 
口 (经 典 ) 分 类 问题 示例 : 根据 测量 结果 推测 植物 的 种 类 
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1.1 数据 挖掘 简介 





数据 挖掘 旨 在 证 计算 机 根据 已 有 数据 做 出 次 策 .决策 可 以 是 预测 明天 的 天 气 、 拦 截 垃 圾 邮件 、 
检测 网 站 的 语言 , 或 者 在 约会 网 站 上 发 现 新 的 恋爱 对 象 。 数据 挖掘 方 面 的 应 用 已 经 有 很 多 , 新 的 
应 用 也 在 源源 不 断 地 出 现 。 


数据 挖 气 涉 及 算法 统计 学 于 程 学 、 最 优化 理论 和 计算 机 科学 相 美 领域 的 知识 。 除 此 之 外 ， 
我 们 还 会 用 到 语言 学 、 神 经 科学 、 城 市 规划 等 其 他 领域 的 概念 或 知识 。 要 想 充分 发 挥 数 据 挖掘 的 
威力 ， 通 常 需要 在 算法 中 整合 这 些 属于 特定 领域 的 知识 。 

虽然 数据 挖掘 相关 应 用 的 实现 细节 可 能 千差万别 ,但 是 从 较 高 的 层次 看 ,它们 往往 大 同 小 异 。 
数据 挖 气 的 第 一 步 一 般 是 创建 数据 集 , 数据 集 能 够 描述 真实 世界 的 某 一 方面 。 数据 集 主要 包括 以 
下 两 个 部 分 。 
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口 表示 真实 世界 中 物体 的 样本 。 样 本 可 以 是 一 本 书 ， 一 张 照片 ， 一 个 动物 ,一 个 人 或 是 其 
他 任何 物体 。 
口 描述 数据 集中 样本 的 特征 。 特 征 可 以 是 长 度 、 单 词 频率 、 腿 的 数量 、 创 建 时 间 等 。 

接 下 来 是 调整 算法 。 每 种 数据 挖掘 算法 都 有 参数 ， 它 们 或 者 是 算法 自身 包含 的 ， 或 者 是 使 用 
者 添加 的 。 这 些 参数 会 影响 算法 的 具体 决策 。 

举 个 简单 的 例子 ， 我 们 希望 计算 机 能 够 把 人 按照 个 子 高 矮 分 成 两 大 类 。 我 们 首先 采集 数据 ， 
得 到 包含 每 个 人 身高 的 一 组 数据 ， 以 及 对 他 们 高 矮 的 判断 。 
























































人 身 ”高 高 还 是 矮 
1 155cm 矮 

2 165cm 矮 

3 175Scm 高 

4 185cm 高 


























接 下 来 要 做 的 就 是 调整 我 们 的 算法 。 作 为 一 个 简单 的 算法 ,如 果 身 高 高 于 x, 我 们 就 认为 这 个 
人 是 高 个 子 ,否则 ,他 就 属于 矮 个 子 。 我 们 的 算法 要 过 一 遍 数 据 ,确定 x 的 最 佳 值 。 对 于 上 面 的 数 
据 集 ，x 比 较 合 理 的 值 为 170cm。 任 何 高 于 170cm 的 人 就 被 归 到 高 个 子 一 类 中 ， 其 余 则 为 矮 个 子 。 


在 上 面 这 个 数据 集中 ,特征 显而易见 为 身高 。 因 为 我 们 想 知 道人 们 的 高 矮 ， 所 以 采集 了 他 们 


的 身高 数据 捕 取 特征 基数 据 挖掘 过 程 的 个 重要 环节 四 洒 书后 面 的 章节 中 会 介绍 从 数据 集 申 抽 
到 区 分 度 高 的 特征 的 方法 ,特征 抽取 往往 需要 对 相关 领域 有 着 深入 的 理解 ,或 至 少 需 要 多 次 试 错 。 
































, 本 书 中 使 用 Python 语言 介绍 数据 挖掘。 出 于 讲解 的 需要 ， 为 了 保证 代码 、 流 
程 的 清晰 易 懂 ， 我 们 有 时 候 跳 过 了 能 够 提升 算法 速度 、 效 果 的 细节 ， 没 有 采用 最 


1.2 使 用 Python 和 1IPython Notebook 


本 节 将 介绍 Python 的 安装 方法 ， 及 本 书 所 用 到 的 开发 环境 Python Notebook 的 搭建 方法 。 此 
外 ， 还 将 安装 第 一 部 分 示例 代码 所 用 到 的 numpy 库 。 








1.2.1 安装 Python 
Python 是 一 门 出 色 的 、 应 用 范围 广泛 且 简 单 易 用 的 编程 语言 。 


本 书 将 使 用 Python 3.4 版 本 ， 你 可 以 根据 自己 的 系统 从 Python 官网 https:/www.python.org/ 
downloads/ 下 载 合 适 的 版 本 。 


Python 主要 有 两 大 版 本 Python 3.4 和 Python 2.7。 记 得 要 下 载 安装 Python 3.4， 本 书 所 有 代码 都 























1.2 使 用 Python 和 IPython Notebook 3 





在 该 版 本 中 测试 过 。 

本 书 假定 读者 了 解 编程 和 Python 相关 知识 。 本 书 不 要 求 你 是 Python 编程 高 手 ， 当 然 有 较 多 的 
知识 储备 学 起 来 更 容易 。 

如 果 你 没有 任何 编程 经 验 ， 我 建议 你 先 看 看 《Python 学 习 手 册 》。 

Python 官 网 为 新 手 准 备 了 两 份 在 线 教程 
口 非 程序 员 背 景 ， 想 通过 Python 学 习 编 程 : 
https://wiki.python.org/moin/BeginnersGuide/NonProgrammers 
口 程序 员 背 景 ， 想 专门 学 习 Python: 

https://wiki.python.org/moin/BeginnersGuide/Programmers 
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Windows 用 户 设 置 好 环境 变量 后 ， 才 能 在 命令 行 中 使 用 Python。 方 法 如 下 。 
首先 ， 找 到 Python 3 的 安装 路 径 ， 默 认为 C'\Python34。 接 下 来 ， 在 命令 行 (cmd 
程序 ) 中 输入 以 下 命令 : 将 环境 设置 为 PYTHONPATH=%PYTHONPATH%; C:\ 
Python340。 如 果 你 将 Python 安装 到 其 他 路 径 下 , 请 根据 实际 情况 调整 上 述 命令 
中 的 Ci\Python34。 


安装 好 Python， 打 开 命令 提示 符 ， 输 入 以 下 命令 ; 


$ python3 

Python 3.4.0 (default, Apr 11 2014, 13:05:11) 

[GCC 4.8.2] on Linux 

Type "help", "copyright", "credits" or "license" for more information. 
>>> print ("Hello, world!") 

Hello, world! 

>>> exit() 


请 注意 ， 我 们 用 美元 符号 ($ ) 表示 紧 跟 在 后 面 的 语句 是 一 条 命令 ， 要 输入 到 终端 (Unix 系 
统 中 的 shell，Windows 系 统 中 的 cmd 程 序 )。 美 元 符号 及 后 面 的 空格 无 须 输 入 。 输 入 后 面 的 内 容 ， 
然后 项 回 车 执行 命令 。 
运行 完 经 上 典 的 “Hello, world!” 例 子 后 ， 退 出 Python， 继续 安装 用 来 运行 Python 代 码 的 更 为 高 
级 的 开发 环境 IPython Notebook。 














Python 3.4 内 置 了 Python 的 包 管 理 器 pip， 用 它 来 安装 Python 包 很 方便 。 使 用 
s pip3 freeze” 命 令 可 以 验证 pip 是 否 能 正常 运行 ， 该 命令 还 会 输出 你 用 它 安 
装 过 哪些 包 。 














GD Python 官网 介绍 了 Windows 系 统 的 两 种 环境 变量 设置 方法 ,建议 直接 把 Python 的 安装 路 径 添加 到 Path 中 ,位 置 如 下 : 
计算 机 -属性 -高 级 系统 设置 -环境 变量 ， 这 也 是 官网 介绍 的 第 一 种 方法 。 译 者 使 用 的 就 是 这 一 种 。 作 者 讲 的 是 第 


二 种 方法 ， 详 见 https://docs.python.org/3.4/using/windows.html#excursus-setting-environment-variables。 一 一 译 者 注 
@ Windows 用 户 需 要 事先 把 pip 添 加 到 环境 变量 中 ， 才 能 在 命令 行使 用 。 译 者 注 
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1.2.2 ”安装 IPython 

Python 开发 平台 IPython 提 供 多 种 Python 开发 工具 和 开发 环境 ， 比 标准 解释 器 多 出 好 多 功能 。 
IPython Notebook 功 能 强大 ， 有 了 它 ， 你 就 可 以 在 Web 浏 览 器 中 编写 程序 。 它 会 为 代码 添加 样式 ， 
显示 运行 结果 ， 人 允许 你 为 代码 添加 注释 。 用 它 来 做 数据 分 析 再 好 不 过 ,我 们 将 把 它 作为 主要 的 开 
发 环境 。 


请 在 命令 提示 符 后 (注意 不 是 Python 中 )， 输入 以 下 命令 安装 IPython: 





















































$ pip install ipython[alll] 


如 果 要 为 系统 所 有 用 户 安装 IPython, 需要 管理 员 权 限 。 如 果 你 只 想 自 己 用 或 者 没有 权限 做 系 
统 级 别 的 变更 ， 则 使 用 以 下 命令 为 当前 用 户 安装 即 可 : 

$ pip install --user ipython[al11] 

以 上 命令 只 为 当前 用 户 安装 IPython 一 一 该 系统 的 其 他 用 户 将 无 法 使 用 ,安装 过 程 中 若 遇 到 问 
题 ， 请 查阅 官方 文档 ， 了 解 更 多 帮助 信息 : http://ipython.org/install.html。 


安装 好 IPython Notebook 后 ， 运 行 方 式 如 下 : 














$ ipython3 notebook 

上 述 命令 帮 你 做 了 两 件 事 。 首 先 ， 在 命令 提示 符 界 面 创建 一 个 IPython Notebook 实 例 。 其 次 ， 
打开 Web 浏 览 絮 ， 连 接 到 实例 , 你 可 以 在 此 创建 新 的 笔记 本 文件 "。Notebook 界 面 如 下 图 所 示 ( 注 
意图 中 的 home/bob 为 当前 用 户 的 主 目录 , 你 看 到 的 是 自己 的 主 目录 , 所 以 目录 名 称 很 可 能 不 同 )。 








IPython Dashboard - Mozilla Firefox 
Iipy IPython Dashboard x 是 
Ss) 127.0.0.1 vC|| 国 » Goog| Ql 会 | 自沉 洁 2 | 三 


IPI[y]: Notebook 
Notebooks Clusters 
To import a notebook, drag the file onto the listing below or click here. Refresh New Notebook 


/home/ bob/ 


























IPython Notebook 的 关闭 方法 如 下 : 打开 运行 实例 的 终端 界面 ( 就 是 你 之 前 用 IPython 命 令 创 
建 Notebook 实 例 的 界面 )， 按 下 Ctrl+C 键 ， 系 统 提示 Shutdown this notebook server 
(y/ [n])?， 询 问 你 是 否 关 闭 笔记 本 服务 器。 输入 y， 敲 回 车 ，IPython Notebook 就 会 关闭 。 





























Q@ 笔记 本 文件 ， 英 文 为 “notebook”， 即 用 IPython Notebook 创 建 的 文件 。 一 一 译 者 注 
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1.2.3 安装 scikit-learn 库 


scikit-learn 是 用 Python 开 发 的 机 器 学 习 库 ， 它 包含 大 量 机 器 学 习 算 法 、 数 据 集 、 工 具 和 
框架 。 它 以 Python 科 学 计算 的 相关 工具 集 为 基础 ， 其 中 numpy 和 scipy 等 都 针对 数据 处 理 任 务 进 
行 过 优化 ， 因 此 scikit-learn 速 度 快 、 扩 展 性 强 ， 新手 会 觉得 它 很 好 用 ， 老 手 也 不 会 觉得 它 功 
能 逊色 。 更 多 内 容 请 见 第 2 章 。 

scikit-learn 库 可 用 Python 3 提供 的 pip 工 具 进 行 安装 ， 之 前 没有 安装 NurmPy 和 SciPy 的 
话 ， 也 会 顺便 安装 。 用 管理 员 / 根 用 户 权限 打开 一 个 终端 ， 然 后 输入 以 下 命令 : 


$ pip3 install -U scikit-learn 


| Windows 用 户 在 安装 scikit-learn 之 前 , 可 能 需要 先 安装 NurmPy 和 SciPy。 安装 | 
指 

















南 请 见 www.scipy.org/install.html。 


Ubuntu 或 红 帽 〈Red Hat ) 等 Linux 系 统 的 用 户 也 许 希 望 用 自 带 的 包 管 理 器 安装 
scikit-learn, 但 是 它们 提供 的 版 本 很 可 能 不 是 最 新 的 ， 所 以 在 安装 前 需 仔 细 核 对 版 本 。 本 书 
使 用 的 版 本 不 能 低 于 0.14， 和 否则 书 中 代码 可 能 无 法 运行 。 

如 何 通过 编译 源 文件 进行 安装 ， 以 及 更 多 的 安装 指南 ， 请 见 官方 文档 : 

http://scikit-learn.org/ stable/install.html。 

















1.3 ” 杀 和 性 分 析 示 例 


终于 迎 来 了 第 一 个 数据 挖掘 的 例子 ,我们 拿 这 个 订 和 性 分 析 的 示例 来 具体 看 下 数据 挖掘 到 底 
是 怎么 回 事 。 数据 挖 气 有 个 常见 的 应 用 场景 ， 即 顾客 在 购买 一 件 商品 时 ,商家 可 以 趁机 了 解 他 们 
还 想 买 什么 , 以 便 把 多 数 顾客 愿意 同时 购买 的 商品 放 到 一 起 销售 以 提升 销售 额 。 当 商家 收集 到 足 
够 多 的 数据 时 ， 就 可 以 对 其 进行 亲 和 性 分 析 ， 以 确定 哪些 商品 适合 放 在 一 起 出 售 。 






































1.3.1 什么 是 亲 和 性 分 析 

亲 和 性 分 析 根 据 样本 个 体 ( 物体 ) 之 间 的 相似 度 ， 确 定 它们 关系 的 亲 玻 。 亲 和 性 分 析 的 应 用 
场景 如 下 。 
口 向 网 站 用 户 提 供 多 样 化 的 服务 或 投放 定向 广告 。 
口 为 了 向 用 户 推荐 电影 或 商品 ， 而 卖 给 他 们 一 些 与 之 相关 的 小 玩意 。 
口 根据 基因 寻找 有 亲缘 关系 的 人 。 

亲 和 性 有 多 种 测量 方法 。 例 如 ， 统 计 两 件 商品 一 起 出 售 的 频率 ， 或 者 统计 顾客 购买 了 商品 1 
后 再 买 商品 2 的 比率 。 当 然 还 有 别 的 方法 ， 比 如 后 面 章节 要 讲 的 计算 个 体 之 间 的 相似 度 。 
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1.3.2 ”商品 推荐 


商品 销售 从 线 下 搬 到 线 上 后 , 很 多 之 前 靠 人 工 完成 的 工作 只 有 实现 自动 化 , 才 有 望 将 生意 做 
大 。 以 向 上 销售 为 例 ,向 上 销售 出 自 英文 up-selling， 指 的 是 向 已 经 购买 商品 的 顾客 推销 另 一 种 商 
品 。 原 来 线 下 由 人 工 来 完成 的 商品 推荐 工作 ,现在 依靠 数据 挖掘 技术 就 能 完成 ,而且 每 年 能 为 商 
家 多 进账 儿 亿 美元 ， 强 力 助 推 电子 商务 革命 的 发 展 ! 


我 们 一 起 看 下 简单 的 商品 推荐 服务 , 它 背 后 的 思路 其 实 很 好 理解 : 人 们 之 前 经 常 同时 购买 的 
两 件 商 品 , 以 后 也 很 可 能 会 同时 购买 。 该 想法 确实 很 简单 吧 , 可 这 就 是 很 多 商品 推荐 服务 的 基础 ， 
无 论 线 上 还 是 线 下 。 

这 种 想法 很 容易 转化 为 算法 。 顾 客 购买 商品 后 , 在 向 他 们 推荐 商品 前 ， 先 查询 一 下 历史 交易 
数据 , 找到 以 往 他 们 购买 同样 商品 的 交易 数据 , 看 看 同时 购买 了 什么 , 再 把 它们 推荐 给 顾客 即 可 。 
该 算法 实际 表现 也 不 错 ， 至少 比 随机 推荐 商品 更 有 效 。 然 而 ， 它 还 有 很 大 的 提升 空间 ， 这 正 是 数 
据 挖掘 一 展 身手 的 好 机 会 。 

为 了 简化 代码 , 方便 讲解 ,我 们 只 考虑 一 次 购买 两 种 商品 的 情况 。 例如， 人 们 去 超市 既 买 了 
面包 ， 又 买 了 牛奶 。 作 为 数据 挖 据 入 门 性 质 的 例子 ， 我 们 希望 得 到 下 面 这 样 的 规则 : 

如 果 一 个 人 买 了 商品 又 ， 那 么 他 很 有 可 能 购买 商品 Y。 


多 件 商品 的 规则 会 更 为 复杂 , 比如 购买 香肠 和 汉堡 包 的 顾客 比 起 其 他 顾客 更 有 可 能 购买 番茄 
唤 ， 本 书 中 不 涉及 这 样 的 规则 。 








































































































1.3.3 在 NumPy 中 加 载 数据 集 


下 载 本 书 配套 代码 包 ， 保 存 到 你 的 计算 机 上 ， 然 后 找到 这 个 例子 的 数据 集 。 本 例 中 ,建议 你 
新 建 一 个 文件 夹 ， 把 数据 集 和 代码 都 放 进 去 。 在 当前 目录 " 下， 启动 Python Notebook， 导 航 进 入 
新 建 的 文件 夹 ， 创 建 一 个 新 的 笔记 本 文件 。 


处 理 该 数据 集 要 用 到 NumPy 的 二 维 数组 , 书 中 大 部 分 例子 都 会 用 到 这 种 数据 结构 。 数 组 看 上 
去 像 是 一 张 表 ， 每 一 行 表示 样本 中 一 个 个 体 ， 每 一 列表 示 一 种 特征 。 


数组 的 每 一 项 为 个 体 的 某 项 特征 值 。 说 起 来 有 些 抛 口 ,为 方便 讲解 ,使 用 如 下 代码 把 数据 集 
加 载 进 来 ， 稍 后 输出 数组 的 部 分 数据 看 看 效果 : 
import numpy as np 


dataset_filename = "affinity_ dataset.txt" 
xX = np.loadtxt (dataset_filename) 



































中 在 命令 行 ， 切换 到 新 建 的 文件 来 ， 输 入 ipython3 notebook 命 令 。 一 一 译 者 注 
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运行 IPython Notebook， 创 建 笔记 本 文件 ， 在 第 一 个 格子 中 输入 上 述 代码 。 按 下 Shift+Enter i 
(同时 创建 新 的 格子 ) 运行 代码 。 代 码 运行 完毕 后 ， 第 一 个 格子 左 侧 的 方 括号 中 出 现 一 个 表示 序 
号 的 数字 ， 看 到 这 个 数字 就 表明 程序 运行 结束 。 第 一 个 格子 应 该 如 下 所 示 : 














In [1]: import numpy as np 
dataset filename = "affinity dataset.txt" 
X= np.loadtxt(dataset filename) 











对 于 笔记 本 文件 , 前面 的 代码 运行 完 后 , 后 面 的 才能 运行 ; 还 没有 轮 到 它 运行 或 是 在 运行 中 
时 ， 方 括号 中 显示 一 个 星 号 。 运 行 结束 后 ， 星 号 立刻 变 为 序号 。 

记得 把 数据 集 文件 和 笔记 本 文件 放 到 同一 目录 下 。 否 则 ， 请 修改 上 述 代码 中 dataset_ 
filename 变 量 的 值 。 

接 下 来 , 我 们 看 看 数据 集 到 底 是 什么 样子 。 在 笔记 本 空格 子 中 输入 以 下 代码 , 输出 数据 集 的 
前 5 行 看 看 : 


print(X[:5]) 




















yl 如 果 你 从 http:/www.packtpub.com 网 站 购买 的 图 书 ， 登 录 后 即 可 下 载 已 购 图 
Q 书 的 代码 文件 ， 如 果 你 是 从 别处 购买 的 图 书 ， 访 问 http:/wwwpacktpub. 
com/support， 注 册 后 ,我 们 可 以 用 电子 邮件 把 你 需要 的 文件 发 给 你 。" 


上 述 代码 的 运行 结果 为 前 5 次 交易 中 顾客 都 买 了 什么 。 





In [2]: print(X[:5]) 


[[ 
[ 


[ 
[ 
[ 


人 
人 
站 
Se 
i 


] 














输出 结果 从 横向 和 纵向 看 都 可 以 。 横 着 看 ， 每 次 只 看 一 行 。 第 一 行 (0，0，1，1，1) 表 示 
第 一 条 交易 数据 所 包含 的 商品 。 竖 着 看 ,每 一 列 代表 一 种 商品 。 在 我 们 这 个 例子 中 ,这 五 种 商品 
分 别 是 面包 、 和 牛奶、 奶酪、 苹果 和 香花 。 从 第 一 条 交易 数据 中 ， 我 们 可 以 看 到 顾客 购买 了 奶酪 、 
苹果 和 香 礁 ,但 是 没有 买 面 包 和 和 牛奶。 


每 个 特征 只 有 两 个 可 能 的 值 ，1 或 0， 表 示 是 否 购买 了 菜 种 商品 ， 而 不 是 购买 商品 的 数量 。1 
表示 顾客 至 少 买 了 1 个 单位 的 该 商品 ，0 表 示 顾 客 没 有 买 该 种 商品 。 






































Q@ 注册 后 ， 可 自行 下 载 。 一 一 译 者 注 
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1.3.4 实现 简单 的 排序 规则 


正如 之 前 所 说 ， 我 们 要 找 出 “如 果 顾 客 购买 了 商品 X， 那 么 他 们 可 能 愿意 购买 商品 Y” 这 样 
的 规则 ?>。 简 单 粗 暴 的 做 法 是 ， 找 出 数据 集中 所 有 同时 购买 的 两 件 商品 。 找 出 规则 后 ， 还 需要 判 
断 其 优 劣 ， 我 们 挑 好 的 规则 用 。 

规则 的 优 劣 有 多 种 衡量 方法 ， 常 用 的 是 支持 度 (support ) 和 置信 和 度 (confidence ) 。 

支持 度 指 数据 集中 规则 应 验 的 次 数 , 统计 起 来 很 简单 。 有 时 候 , 还 需要 对 支持 度 进行 规范 化 ， 
即 再 除 以 规则 有 效 前 提 下 的 总 数量 。 我 们 这 里 只 是 简单 统计 规则 应 验 的 次 数 。 

支持 度 衡量 的 是 给 定 规 则 应 验 的 比例 ,而 置信 度 衡 量 的 则 是 规则 准确 率 如 何 , 即 符合 给 定 条 
件 〈 即 规则 的 “如 果 ” 语 句 所 表示 的 前 提 条 件 ) 的 所 有 规则 里 ， 跟 当前 规则 结论 一 致 的 比例 有 多 
大 。 计 算 方法 为 首先 统计 当前 规则 的 出 现 次 数 ， 再 用 它 来 除 以 条 件 ( “如果 ”语句 ) 相同 的 规则 
数量 。 

接 下 来 , 通过 一 个 例子 来 说 明 支 持 度 和 置信 和 度 的 计算 方法 ,我 们 看 一 下 怎么 求 “ 如 果 顾 客 购 
买 了 苹果 ， 他 们 也 会 购买 香蕉 ”这 条 规则 的 支持 度 和 置信 度 。 


如 下 面 的 代码 所 示 ,通过 判断 交易 数据 中 sample[31] 的 值 , 就 能 知道 一 个 顾客 是 否 买 了 蔷 果 。 
这 里 ，sample 表 示 一 条 交易 信息 ， 也 就 是 数据 集 里 的 一 行 数据 。 
















































































In [9]: # First, how many rows contain our premise: that a person is buying apples 
num apple purchases = 0 
for sample in X: 
if sample[3] == 1: # This person bought Apples 
num apple purchases += 1 
print("{0} people bought Apples".format(num apple purchases) 


36 people bought Apples 


同 理 ， 检 测 sampler41] 的 值 是 否 为 1， 就 能 确定 顾客 有 没有 买 香 医 。 现 在 可 以 计算 题目 给 定 
规则 在 数据 集中 的 出 现 次 数 ， 从 而 计算 置信 和 度 和 支持 度 。 


我 们 需要 统计 数据 集中 所 有 规则 的 相关 数据 。 首先 分 别 为 规则 应 验 和 规则 无 效 这 两 种 情况 创 
建 字 典 。 字 典 的 键 是 由 条 件 和 结论 组 成 的 元 组 ,元 组 元 素 为 特征 在 特征 列表 中 的 索引 值 , 不 要 用 
实际 特征 名 ， 比 如 “如 果 顾 客 购买 了 苹果 ， 他们 也 会 买 香 若 ”就 用 (3, 4) 表 示 。 如 果 某 个 个 体 的 条 
件 和 结论 均 与 给 定 规则 相符 , 就 表示 给 定 规则 对 该 个 体 适用 , 否则 如 果 通 过 给 定 条 件 推出 的 结论 
与 给 定 规则 的 结论 不 符 ， 则 表示 给 定 规则 对 该 个 体 无 效 。 


为 了 计算 所 有 规则 的 置信 度 和 支持 度 ， 首 先 创建 几 个 字典 ， 用 来 存放 计算 结果 。 这 里 使 月 
defaultdict， 好 处 是 如 果 查 找 的 键 不 存在 ,返回 一 个 默认 值 。 需 要 统计 的 量 有 规则 应 验 、 规 






















































































GD 一 条 规 贝 


《 


前 提 条 件 和 结论 两 部 分 组 成 。 一 一 译 者 注 
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则 无 效 及 条 件 相同 的 规则 数量 。 "el 


from collections import defaultdict 
Validq_rules = defaultdict (int) 
invalid_rules = defaultdict (int) 
num_ occurances = defaultdict (int) 


计算 过 程 需要 用 到 循环 结构 , 依次 对 样本 的 每 个 个 体 及 个 体 的 每 个 特征 值 进行 处 理 。 第 一 个 
特征 为 规则 的 前 提 条 件 一 一 顾客 购买 了 某 一 种 商品 。 








for sample in XxX: 
for premise in range(4): 


检测 个 体 是 否 满足 条 件 ， 如 果 不 满足 ， 继 续 检测 下 一 个 条 件 。 





if sample[Premise] == 0: continue 


如 果 条 件 满足 ( 即 值 为 1 )， 该 条 件 的 出 现 次 数 加 1。 在 遍历 过 程 中 跳 过 条 件 和 结论 相同 的 情 
况 ， 比 如 “如 果 顾 客 买 了 苹果 ， 他 们 也 买 苹果 ”， 这 样 的 规则 没有 多 大 用 处 。 














num occurances[premise] += 1 
for conclusion in range(n features) : 
if premise == conclusion: continue 


如 果 规 则 适用 于 个 体 ， 规 则 应 验 这 种 情况 ( valiq_rules 字 典 中 ， 键 为 由 条 件 和 结论 组 成 
的 元 组 ) 增加 一 次 ， 反 之 ， 违 反 规则 情况 ( inval id_rules 字 典 中 ) 就 增加 一 次 。 
if sample[conclusion] == 
valiqd rules[ (premise, conclusion)] += 1 


else: 
invaliqd_ rules[ (premise, conclusion)] += 1 


得 到 所 有 必要 的 统计 量 后 ,我们 再 来 计算 每 条 规则 的 支持 度 和 置信 和 度 。 如 前 所 述 ,支持 度 就 
是 规则 应 验 的 次 数 。 





support = validqd rules 


置信 和 度 的 计算 方法 类 似 ， 遍历 每 条 规则 进行 计算 。 





confidence = defaultdict (float) 
for premise, conclusion in valiqd rules.keys(): 
rule = (premise, conclusion) 
confidence[rule] = valiqd rules[rule] / num occurances [premise] 


我 们 得 到 了 支持 度 字典 和 置信 和 度 字 虎 , 分 别 包 含 每 条 规则 的 支持 度 和 置信 和 度 。 我 们 再 来 声明 
一 个 函数 ,接收 的 参数 有 : 分 别 作为 前 提 条 件 和 结论 的 特征 索引 值 、 文 持 度 字典 、 置 信 度 字典 以 
及 特征 列表 。 输 出 每 条 规则 及 其 支持 度 和 置信 和 度 ， 对 输出 进行 格式 化 ， 以 方便 查看 。 




















def print_rule(premise, conclusion, 
support, confidence, features): 
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之 前 建立 的 features 列 表 派 上 用 场 了 ， 每 条 规则 的 条 件 、 结 论 就 是 用 features 列 表 中 特征 的 索 
引 来 表示 的 。 输 出 时 ， 把 索引 替换 成 相应 的 特征 ， 更 容易 读 懂 。 





premise name = features [premise] 

conclusion name = features[conclusion] 

print ("Rule: If a person buys {0} they will also buy 
{1}".format (premise name, conclusion name)) 


接着 输出 规则 的 支持 度 和 置信 和 度 





print(" - Support: {0}".format (support[ (premise, 
conclusion)])) 
print(" - Confidence: {0:.3f}".format (confidence[ (premise, 
conclusion)])) 





写 完 后 ， 自 己 测试 一 下 代码 是 否 可 用 一 一 尝试 更 换 条 件 和 结论 ， 看 看 输出 结果 如 何 。 





In [31]: premise = 1 
conclusion = 3 
print rule(premise, conclusion, support, confidence, features) 


Rule: If a person buys milk they will also buy apples 
- Confidence: 0.196 
- Support: 9 











1.3.5 ”排序 找 出 最 佳 规则 


得 到 所 有 规则 的 支持 度 和 置信 和 度 后 , 为 了 找 出 最 佳 规则 , 还 需要 根据 支持 度 和 置信 度 对 规则 
生 排 序 我 们 分 别 看 一 下 这 两 个 标准 。 


要 找 出 支持 度 最 高 的 规则 ,首先 对 支持 度 字典 进行 排序 。 字 典 中 的 元 素 (一 个 键 值 对 ) 默认 
为 没有 前 后 顺序 ; 字典 的 items () 函数 返回 包含 字典 所 有 元 素 的 列表 。 0 
类 作为 键 ， 这样 就 可 以 对 骸 套 列表 进行 排序 。itemgetter (1) 表 示 以 字典 各 元 素 的 值 (这 里 
支持 度 ) 作为 排序 依据 ，reverse=True 表 示 降 序 排列 。 











from operator import itemgetter 


Verse=True) 
排序 完成 后 ， 就 可 以 输出 支持 度 最 高 的 前 5 条 规则 。 


for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
premise, conclusion = sorted_ support [index] [0] 
print_rule(premise, conclusion, support, confidence, features) 


结果 如 下 所 示 : 
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In [49]: for index in range(5): 
print("Rule #{0}".format(index + 1)) 


(premise, conclusion) = sorted support[index][9] 
print_ rulelpremise, conclusion, support, confidence, features 











Rule #1 

Rule: If a person buys cheese they will also buy bananas 
- Confidence: 0.659 
- Support: 27 


Rule #2 

Rule: If a person buys bananas they will also buy cheese 
- Confidence: 0.458 
- Support: 27 


Rule #3 

Rule: If a person buys apples they will also buy cheese 
- Confidence: 0.694 
- Support: 25 


Rule #4 

Rule: If a person buys cheese they will also buy apples 
- Confidence: 0.610 
- Support: 25 


Rule #5 

Rule: If a person buys bananas they will also buy apples 
- Confidence: 0.356 
- Support: 21 











同 理 ， 我们 还 可 以 输出 置信 度 最 高 的 规则 。 首 先 根据 置信 和 度 进行 排序 。 


sorted_confidence = sorted(confidence.items(), key=itemgetter(1), 
reverse=True) 


再 次 输出 看 看 结果 。 注 意 输 出 方法 相同 ,但 是 请 留意 下 面 第 三 行 代码 里 sorted_ 
confidence 的 变化 ， 不 要 继续 使 用 sorteqd_support。 


for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
premise, conclusion = sorted confidence[index] [0] 
print_rule(premise, conclusion, support, confidence, features) 
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In [42]: for index in range(5): 
print("Rule #{9}" .format(index + 1)) 
(premise, conclusion) = sorted _ confidence[index][9] 
print rule(premise, conclusion, support, confidence, features) 


Rule #1 

Rule: If a person buys apples they will also buy cheese 
- Confidence: 0.694 
- Support: 25 


Rule #2 

Rule: If a person buys cheese they will also buy bananas 
- Confidence: 0.659 
- Support: 27 


Rule #3 

Rule: If a person buys bread they will also buy bananas 
- Confidence: 0.630 
- Support: 17 


Rule #4 

Rule: If a person buys cheese they will also buy apples 
- Confidence: 0.610 
- Support: 25 


Rule #5 

Rule: If a person buys apples they will also buy bananas 
- Confidence: 0.583 
- Support: 21 








从 排序 结果 来 看 , “顾客 买 苹果 ， 也 会 买 奶酪 ”和 “顾客 买 奶酪， 也 会 买 香蕉 ”， 这 两 条 规 
则 的 支持 度 和 置信 度 都 很 高 。 超 市 经 理 可 以 根据 这 些 规则 来 调整 商品 摆 放 位 置 。 例 如 ,如果 本 周 
苹果 促销 ， 就 在 旁边 摆 上 奶酪。 但 是 香 攻 和 奶 栈 同 时 搞 促 销 就 没有 多 大 意义 了 ,因为 我 们 发 现 购 
买 奶酪 的 顾客 中 ,接近 66% 的 人 即使 不 搞 促销 也 会 买 香 礁 一 一 即使 搞 促销 ， 也 不 会 给 销量 带 来 多 
大 提升 。 


从 上 面 这 个 例子 就 能 看 出 数据 挖掘 的 洞察 力 有 多 强大 。 人 们 可 以 用 数据 挖掘 技术 探索 数据 集 
中 各 变量 之 间 的 关系 ， 寻 找 新 发 现 。 接 下 来 一 他， 我 们 看 看 数据 挖掘 的 另 一 个 功能 : 预测 。 




















1.4 分 类 问题 的 简单 示例 


在 上 述 亲 和 性 分 析 例子 中 ,我们 寻找 的 是 数据 集中 不 同 变量 之 间 的 相关 性 。 耐劳 类 间 题 恒 同 
匀 注 关 列 GO 叫 作 目标 六 这 太 变 量 。 上 述 例 子 中 ， 假 如 我 们 关心 的 是 怎样 让 顾客 买 更 多 的 苹果 ， 
就 可 以 把 是 否 购买 苹果 作为 类 别 ， 使 用 分 类 方法 ， 只 寻找 促成 顾客 购买 苹果 的 规则 。 


























1.5 ”什么 是 分 类 
分 类 是 数据 挖掘 领域 最 为 常用 的 方法 之 一 ， 不 论 是 实际 应 用 还 是 科研 ， 都 少不了 它 的 身影 。 
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对 于 分 类 问题 , 我 们 通常 能 拿 到 表示 实际 对 象 或 事件 的 数据 集 , 我 们 知道 数据 集中 每 一 条 数据 所 
属 的 类 别 , 这 些 类 别 把 一 条 条 数据 划分 为 不 同 的 类 。 什么 是 类 别 ? 类 别 的 值 又 是 怎么 回 事 ? 我 们 
来 看 下 面 儿 个 例子 。 
口 根据 检测 数据 确定 植物 的 种 类 。 类 别 的 值 为 “植物 属于 哪个 种 类 ? ”。 
口 判断 图 像 中 有 没有 狗 。 类 别 是 “图 像 里 有 狗 吗 ? ”。 
口 根据 化 验 结果 ， 判 断 病 人 有 没有 患 上 癌症 。 类 别 是 “病人 得 癌症 了 吗 ?”。 

上 述 三 个 问题 中 有 两 个 是 二 值 ( 是 / 否 ) 问题 , 但 正如 第 一 个 确定 植物 类 别 的 问题 ， 多 个 类 
别 的 情况 也 很 常见 。 












































分 类 应 用 的 目标 是 , 根据 已 知 类 别 的 数据 集 , 经 过 训练 得 到 一 个 分 类 模型 ,再 用 模型 对 类 别 
水 知 的 数据 进行 分 类 。 例如 ,我 们 可 以 对 收 到 的 邮件 进行 分 类 ,标注 哪些 是 自己 希望 收 到 的 ， 哪 





些 是 垃圾 邮件 , 然后 用 这 些 数据 训练 分 类 模型 , 实现 一 个 垃圾 邮件 过 滤 絮 ,这样 以 后 再 收 到 邮件 ， 
就 不 用 自己 去 确认 它 是 不 是 垃圾 邮件 了 ， 过 滤器 就 能 帮 你 搞定 。 





1.5.1 准备 数据 集 


我 们 接 下 来 将 使 用 著名 的 Iris 植物 分 类 数据 集 。 这 个 数据 集 共 有 150 条 植物 数据 ， 每 条 数据 都 
给 出 了 四 个 特征 : sepal length、sepal width 、petal length、petal width (分别 表示 苯 片 和 花 泊 的 长 
与 宽 )， 单位 均 为 em。 这 是 数据 挖掘 中 的 经 典 数 据 集 之 一 (1936 年 就 用 到 了 数据 挖掘 领域 ! )。 该 
数据 集 共 有 三 种 类 别 : Iris Setosa ( 山 葬 尾 )、Iris Versicolour ( 变色 音 尾 ) 和 Iris Virginica ( 维 吉 尼 
亚 蕊 尾 )。 我 们 这 里 的 分 类 目的 是 根据 植物 的 特征 推测 它 的 种 类 。 


scikit-learn 库 内 置 了 该 数据 集 ， 可 直接 导入 。 





























from sklearn.datasets import load_ iris 
dataset = load_ iris() 

xX = dataset.data 

y = dataset.target 


用 print (dataset .DESCR) 命 令 查 看 数据 集 ， 大 概 了 解 一 下 ， 包 括 特征 的 说 明 。 


数据 集中 各 特征 值 为 连续 型 ,也 就 是 有 无 数 个 可 能 的 值 。 测量 得 到 的 数据 就 是 这 个 样子 ， 比 
如 ,测量 结果 可 能 是 1、1.2 或 1.25， 等 等 。 连 续 值 的 男 一 个 特点 是 ， 如 果 两 个 值 相近 ， 表 示 相 似 
度 很 大 。 一 种 莹 片 长 1.2cm 的 植物 跟 一 种 莹 片 宽 1.25cm 的 植物 很 相像 。 


与 此 相反 ,类 别 的 取 值 为 离散 型 。 虽然 常用 数字 表示 类 别 , 但 是 类 别 值 不 能 根据 数值 大 小 比 
较 相 似 性 。Iris 数 据 集 用 不 同 的 数字 表示 不 同 的 类 别 ， 比 如 类 别 0、1 、2 分 别 表示 Iris Setosa 、Iris 
Versicolour、Iris Virginica。 但 是 这 不 能 说 明 前 两 种 植物 ， 要 比 第 一 种 和 第 三 种 更 相近 一 一 尽管 单 
看 表示 类 别 的 数字 时 确实 如 此 。 在 这 里 ,数字 表示 类 别 ， 只 能 用 来 判断 两 种 植物 是 否 属于 同一 种 
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类 别 ， 而 不 能 说 明 是 否 相似 。 

当然 ,还 有 其 他 类 型 的 特征 ， 后 续 章节 会 讲 到 其 中 几 种 。 

数据 集 的 特征 为 连续 值 ， 而 我 们 即将 使 用 的 算法 使 用 类 别 型 特征 值 ， 因 此 我 们 需要 把 连续 值 
转变 为 类 别 型 ， 这 个 过 程 叫 作 离 散 化 。 

最 简单 的 离散 化 算法 ， 莫 过 于 确定 一 个 冰 值 ， 将 低 于 该 阔 值 的 特征 值 置 为 0， 高 于 阔 值 的 置 
为 1。 我 们 把 某 项 特征 的 闪 值 设 定 为 该 特征 所 有 特征 值 的 均值 。 每 个 特征 的 均值 计算 方法 如 下 。 

attribute means = X.mean(axis=0) 

我 们 得 到 了 一 个 长 度 为 4 的 数组 , 这 正好 是 特征 的 数量 。 数 组 的 第 一 项 是 第 一 个 特征 的 均值 ， 
以 此 类 推 。 接 下 来 ， 用 该 方法 将 数据 集 打 散 ， 把 连续 的 特征 值 转换 为 类 别 型 。 

Xd = np.array (X >= attribute means, dtype='int') 


后 面 的 训练 和 测试 ,都 将 使 用 新 得 到 的 x_a 数 据 集 ( 打 散 后 的 数组 X )， 而 不 再 使 用 原来 的 数 
据 集 (XX )。 



















































































1.5.2 ”实现 OneR 算法 


OneR 算 法 的 思路 很 简单 ， 它 根据 已 有 数据 中 ， 具 有 相同 特征 值 的 个 体 最 可 能 属于 哪个 类 别 
进行 分 类 。OneR 是 One Rule (一 条 规则 ) 的 简写 ， 表 示 我 们 只 选取 四 个 特征 中 分 类 效果 最 好 的 一 
个 用 作 分 类 依据 。 后 续 章 节 中 的 分 类 算法 比 起 OneR 要 复杂 很 多 , 但 这 个 看 似 不 起 眼 的 简单 算法 ， 
在 很 多 真实 数据 集 上 表现 得 也 不 几 。 


算法 首先 遍历 每 个 特征 的 每 一 个 取 值 , 对 于 每 一 个 特征 值 ,统计 它 在 各 个 类 别 中 的 出 现 次 数 ， 
找到 它 出 现 次 数 最 多 的 类 别 ， 并 统计 它 在 其 他 类 别 中 的 出 现 次 数 。 


举例 来 说 ， 假 如 数据 集 的 某 一 个 特征 可 以 取 0 或 1 两 个 值 。 数 据 集 共有 三 个 类 别 。 特 征 值 为 0 
的 情况 下 ，A 类 有 20 个 这 样 的 个 体 ，B 类 有 60 个 ，C 类 也 有 20 个 。 那 么 特征 值 为 0 的 个 体 最 可 能 属 
于 B 类 ， 当 然 还 有 40 个 个 体 确实 是 特征 值 为 0, 但 是 它们 不 属于 B 类 。 将 特征 值 为 0 的 个 体 分 到 B 类 
的 错误 率 就 是 40%， 因 为 有 40 个 这 样 的 个 体 分 别 属 于 A 类 和 C 类 。 特 征 值 为 1 时 ， 计 算 方法 类 似 ， 
不 再 歼 述 ; 其 他 各 特征 值 最 可 能 属于 的 类 别 及 错误 率 的 计算 方法 也 一 样 。 

统计 完 所 有 的 特征 值 及 其 在 每 个 类 别 的 出 现 次 数 后 , 我 们 再 来 计算 每 个 特征 的 错误 率 。 计 算 
方法 为 把 它 的 各 个 取 值 的 错误 率 相 加 ， 选 取 错 误 率 最 低 的 特征 作为 唯一 的 分 类 准则 (OneR ), 用 
于 接 下 来 的 分 类 。 

现在 ， 我 们 就 来 实现 该 算法 。 首 先 创建 一 个 函数 ， 根 据 待 预测 数据 的 某 项 特征 值 预测 类 别 ， 
并 给 出 错误 率 。 在 这 之 前 需要 导入 前 面 用 过 的 defaultdict 和 itemgetter 模 块 。 


































































































from collections import defaultdict 
from operator import itemgetter 


下 面 创建 函数 声明 ， 参 数 分 别 是 数据 集 、 类 别 数组 、 选 好 的 特征 索引 值 、 特 征 值 。 





























def train feature value (xX, y_true, feature_ index, value): 
接 下 来 遍历 数据 集中 每 一 条 数据 ( 代表 一 个 个 体 )， 统 计 具 有 给 定 特征 值 的 个 体 在 各 个 类 别 
中 的 出 现 次 数 。 
class_counts = defaultdict (int) 
for sample, y in zip(X, y_true): 


if sample[lfeature_ index] == value: 
class_counts[y] += 1 


对 class_counts 字 典 进 行 排序 ， 找 到 最 大 值 ， 就 能 找 出 具有 给 定 特征 值 的 个 体 在 哪个 类 别 
中 出 现 次 数 最 多 。 
sorted_class_counts = sorted(class_counts.items(), 


key=itemgetter(1), reverse=True) 
most_frequent_class = sorted class_counts[0][0] 


接着 计算 该 条 规则 的 错误 率 。OneR 算 法 会 把 具有 该 项 特征 值 的 个 体 统统 分 到 上 面 找到 的 出 
现 次 数 最 多 的 类 别 中 。 错 误 率 为 具有 该 特征 值 的 个 体 在 其 他 类 别 ( 除 出 现 次 数 最 多 的 类 别 之 外 的 ) 
中 的 出 现 次 数 ， 它 表示 的 是 分 类 规则 不 适用 的 个 体 的 数量 。 

















incorrect_predictions = [class_count for class_value, class_count 
in class_counts.items() 

if class_value != most_frequent_class] 

error = sum(incorrect predictions) 


最 后 返回 使 用 给 定 特征 值得 到 的 待 预测 个 体 的 类 别 和 错误 率 。 





return most_frequent_class, error 
对 于 某 项 特征 ,遍历 其 每 一 个 特征 值 , 使 用 上 述 函 数 ， 就 能 得 到 预测 结果 和 每 个 特征 值 所 带 
来 的 错误 率 ， 然 后 把 所 有 错误 率 累 加 起 来 ， 就 能 得 到 该 特征 的 总 错误 率 。 我 们 来 定义 一 个 函数 ， 
实现 这 些 操作 。 


函数 声明 如 下 ， 这 次 只 用 到 三 个 参数 ， 上 面 已 经 介绍 过 。 

















def train on feature(X, y_true, feature index): 

接 下 来 找 出 给 定 特征 共有 几 种 不 同 的 取 值 。 下 面 这 行 代码 X[ : ,feature_index] 以 数组 的 
形式 返回 由 feature_index 所 指 的 列 。 然后 用 set 函数 将 数组 转化 为 集合 , 从 而 找 出 有 几 种 不 同 
的 取 值 。 








values = set (XxX[:,feature_index]) 
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再 创建 字典 predqictors， 用 作 预 测 器 。 字 典 的 键 为 特征 值 ， 值 为 类 别 。 比 如 键 为 1.5、 值 为 
2， 表 示 特 征 值 为 1.5 的 个 体 属 于 类 别 2。 创 建 errors 列 表 ， 存 储 每 个 特征 值 的 错误 率 。 














predictors = {} 
errors = [] 


函数 的 主干 部 分 遍历 选 定 特征 的 每 个 不 同 的 特征 值 ， 用 前 面 定 义 的 train_feature_ 
value () 函数 找 出 每 个 特征 值 最 可 能 的 类 别 ， 计 算 错 误 率 ， 并 将 其 分 别 保存 到 预测 需 predictors 
和 和 errors 中 。 





for current_value in values: 
most_frequent_class, error = train feature value(x, 
y_true, feature_ index, current_value) 
predictors[current_value] = most_frequent_ class 
errors.append (error) 


最 后 ， 计 算 该 规则 的 总 错误 率 ， 返 回 预测 器 及 总 错误 率 。 





total_error = sum(errors) 
return predictors, total_error 


1.5.3 ”测试 算法 

上 一 节 中 亲 和 人 性 分 析 算 法 的 目标 是 从 数据 集中 发 现 用 以 指导 实践 的 规则 。 而 分 类 问题 有 所 不 
同 ， 我 们 想 建 立 一 个 能 够 根据 已 有 知识 对 没有 见 过 的 个 体 进行 分 类 的 模型 。 

我 们 因此 把 机 器 学 习 流 程 分 为 两 步 : 训练 和 测试 。 在 训练 阶段 ,我们 从 数据 集中 取 一 部 分 数 
据 , 创建 模型 。 在 测试 阶段 ， 我们 测试 模型 在 数据 集 上 的 分 类 效果 。 考 虑 到 模型 的 目标 是 对 新 个 
体 进 行 分 类 ， 因 此 不 能 用 测试 数据 训练 模型 ， 因 为 这 样 做 容易 导致 过 拟 合 问题 。 

过 拟 合 指 的 是 模型 在 训练 集 上 表现 很 好 , 但 对 于 没有 见 过 的 数据 表现 很 差 。 解 决 方法 很 简单 : 
千 万 不 要 用 训练 数据 测试 算法 。 详 细 的 处 理 方法 很 复杂 ， 后 续 章 节 会 有 所 涉及 ; 我 们 这 里 简单 化 
处 理 ， 把 数据 集 分 为 两 个 小 部 分 ， 分 别 用 于 训练 和 测试 。 有 具体 流程 接 下 来 会 介绍 。 

scikit-learn 库 提供 了 一 个 将 数据 集 切 分 为 训练 集 和 测试 集 的 函数 。 
































from sklearn.cross_validation import train test_ split 
该 函数 根据 设 定 的 比例 ( 默认 把 数据 集 的 25% 作 为 测试 集 ) 将 数据 集 随 机 切 分 为 两 部 分 ， 以 
确保 测试 结果 的 可 信 度 。 


Xd_train, Xd test, y_train, y_test = train test_split(XQqa，y，Lrandqaom_ 
state=14) 


这 样 我 们 就 得 到 了 两 个 数据 集 : 训练 集 Xxd_train 和 测试 集 xq_test。y_train 和 y_test 
分 别 为 以 上 两 个 数据 集 的 类 别 信息 。 
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切 分 函数 的 第 三 个 参数 random_state 用 来 指定 切 分 的 随机 状态 。 每 次 切 分 , 使 用 相同 的 随 
机 状态 , 切 分 结果 相同 。 虽然 看 起 来 是 随机 的 , 但 是 它 所 使 用 的 算法 是 确定 的 , 输出 结果 也 是 一 
致 的 。 在 书 中 所 有 用 到 random_state 的 地 方 ， 我 建议 你 跟 我 使 用 同一 个 值 ， 这 样 你 得 到 的 结 
就 应 该 跟 我 的 相同 , 这样 便 于 你 验证 结果 。 把 random_state 的 值 设置 为 none, 每 次 切 分 结果 将 
是 真正 随机 的 。 


接 下 来 ,计算 所 有 特征 值 的 目标 类 别 ( 预测 器 )。 记 得 只 使 用 训练 集 。 遍 历数 据 集中 的 每 个 
特征 ， 使 用 我 们 先前 定义 的 函数 Lrain_on_feature () 训 练 预测 器 ， 计 算 错误 率 。 


















































all_predictors = {} 
OT = 让 
for feature index in range (Xd train.shape[1]): 
predictors, total_ error = train on feature(Xd train, y_train, 
feature_index) 


all_predictors[feature_index] = predictors 

errors[feature_index] = total_error 
然后 找 出 错误 率 最 低 的 特征 ， 作 为 分 类 的 唯一 规则 。 
best_feature, best_error = sortedl(errors.items(), key=itemgetter(1)) 
[0] 








对 预测 器 进行 排序 ， 找 到 最 佳 特征 值 ， 创 建 mode1 模 型 。 


model = {'feature': best_feature, 
'predictor': all predictors[best_ feature] [0]} 


mode1l 模 型 是 一 个 字典 结构 ， 包 含 两 个 元 素 : 用 于 分 类 的 特征 和 预测 器 。 有 了 模型 后 ， 就 可 
以 根据 特征 值 对 没有 见 过 的 数据 进行 分 类 。 示 例如 下 : 




















variable = model['variable'] 
predictor = model[l'predictor'] 
prediction = predictor[int (sample[variablel])] 


我 们 经 常 需要 一 次 对 多 条 数据 进行 预测 , 为 此 用 上 面 的 代码 实现 了 下 面 这 个 函数 , 通过 遍历 
数据 集中 的 每 条 数据 来 完成 预测 。 


def predict (x_test, model): 
variable = model['variable'] 
predictor = model['predictor'] 
y_predicted = np.array ([predictor[int (sample[variable])] for 
sample in XxX test]) 
return y_predicted 


我 们 用 上 面 这 个 函数 预测 测试 集中 每 条 数据 的 类 别 。 








y_predicted = predict (Xx_ test, model) 


比较 预测 结果 和 实际 类 别 ， 就 能 得 到 正确 率 是 多 少 。 
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accuracy = np.mean(y_predicted == y_test) * 100 
print ("The test accuracy is {:.1f}%".format (accuracy)) 


输出 结果 为 68%， 对 于 只 使 用 一 条 规则 来 说 ， 这 就 很 不 错 了 1! 











1.6 小结 


本 章 介 绍 了 如 何 用 Python 进行 数据 挖掘 。 如 果 你 能 运行 这 一 部 分 的 代码 ?〈 见 代码 包 第 1 章 的 
文件 夹 )， 说 明 开发 环境 已 搭建 好 ， 后 续 章 节 的 大 部 分 代码 都 能 运行 了 。 当 然 有 些 Python 库 还 没 
装 ， 随 用 随 装 就 好 。 

我 们 用 IPython Notebook 运 行 了 代码 ， 好 处 是 能 及 时 看 到 一 小 块 代码 的 输出 。 它 功能 强大 ， 
后 面 会 继续 使 用 。 

我 们 举 了 一 个 简单 的 亲 和 性 分 析 的 例子 , 用 它 找 出 顾客 经 常 一 起 购买 的 商品 。 这 种 探索 性 的 
分 析 方 法 用 处 很 大 , 能 帮助 人 们 发 现 商 业 流 程 、 某 个 环境 或 场景 中 的 潜在 规律 。 亲 和 性 分 析 可 用 
在 商业 、 医 疗 、 人 工 智能 等 领域 ， 说 不 定 能 这 些 领域 带 来 突破 。 

本 章 还 通过 OneR 算 法 介绍 了 分 类 的 应 用 。 该 算法 寻找 最 佳 的 特征 值 用 于 分 类 ， 该 特征 值 在 
训练 集中 哪个 类 别 中 出 现 的 次 数 最 多 ， 待 预测 数据 就 属于 哪个 类 别 。 

后 续 章 节 会 扩展 分 类 和 亲 和 性 分 析 的 概念 , 同时 还 会 介绍 scikit-learn 库 以 及 它 实 现 的 一 
些 数 据 挖 掘 算法 。 




























































































Q@ 如 果 .ipynb 文 件 在 Notebook 中 打开 时 报错 ， 请 用 JSON 检 查 工具 查找 有 无 不 合法 的 JSON 字 符 ， 自 行 调整 一 下 。 
一 一 译 者 注 





用 scikit-learn 


估计 希 分 拓 











用 Python 语言 编写 的 scikit-learn 库 ， 实 现 了 一 系列 数据 挖掘 算法 ， 提 供 通用 编程 接口 、 
标准 化 的 测试 和 调 参 工具 , 便于 用 户 尝试 不 同 算法 对 其 进行 充分 测试 和 查找 最 优 参数 值 。 有 大 量 
使 用 scikit-learn 库 的 算法 和 工具 。 


本 章 讲 解数 据 挖掘 通用 框架 的 搭建 方法 。 有 了 这 样 一 个 框架 , 后 续 章 节 就 可 以 把 讲解 重点 放 
到 数据 挖掘 应 用 和 技术 上 面 。 
本 章 主 要 介绍 如 下 几 个 概念 。 


口 估计 器 (Estimator ): 用 于 分 类 、 聚 类 和 回归 分 析 。 
口 转换 器 ( Transformer ): 用 于 数据 预 处 理 和 数据 转换 。 
口 流水 线 (Pipeline ): 组 合 数据 挖 气 流程 ， 便 于 再 次 使 用 。 












































2.1 scikit-learn 估计 器 





为 帮助 用 户 实现 大 量 分 类 算法 ，scikit-learn 把 相关 功能 封装 成 所 谓 的 估计 器 。 估 计 器 用 
于 分 类 任务 ， 它 主要 包括 以 下 两 个 函数 。 
口 fit () : 训练 算法 ,设置 内 部 参数 。 该 函数 接收 训练 集 及 其 类 别 两 个 参数 。 
口 preGict () : 参数 为 测试 集 。 预 测 测试 集 类 别 ， 并 返回 一 个 包含 测试 集 各 条 数据 类 别 的 
数组 。 
大 多 数 scikit-leazn 估 计 器 接收 和 输出 的 数据 格式 均 为 numpy 数 组 或 类 似 格式 。 


scikit-leatrn 提 供 了 大 量 估计 器 ， 其 中 有 支持 向 量 机 ( SVM )、 随 机 森林 、 神 经 网 络 等 ， 
多 数 算法 本 书 都 会 有 所 涉及 。 本 章 先 介绍 scikit-learn 中 的 近邻 算法 。 
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我 们 需要 安装 matplotlib 库 ， 作 图 时 会 用 到 。 最 简单 的 安装 方法 就 是 用 
pip3 来 安装 ， 在 第 1 章 安装 scikit-learn 时 用 过 。 


儿 
$pip3 install matplotlib 
人 


安装 过 程 中 若 遇 到 任何 问题 ， 请 参考 官方 给 出 的 安装 指南 : http://matplotlib. 
org/users/installing.html。 


2.1.1 近邻 算法 


钙 罕 东汉 可 能 是 标准 数据 挖掘 算法 中 最 为 直观 的 一 种 。 为 了 对 新 个 体 进行 分 类 ， 它 查找 训 
练 集 ， 找 到 与 新 个 体 最 相似 的 那些 个 体 ， 看 看 这 些 个 体 大 多 属于 哪个 类 别 ， 就 把 新 个 体 分 到 哪 


个 类 别 。 




















举例 来 说 ,我 们 要 根据 三 角形 更 像 什 么 ( 跟 哪 种 图 形 离 得 更 近 )， 预 测 三 角形 的 类 别 。 我 们 
找到 三 个 离 它 最 近 的 邻居 : 两 个 萎 形 和 一 个 加 。 萎 形 的 数量 多 于 圆 ， 因 此 我 们 预测 三 角形 的 类 别 


为 萎 形 。 
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近邻 算法 几乎 可 以 对 任何 数据 集 进行 分 类 ， 但是， 要 计算 数据 集中 每 两 个 个 体 之 间 的 距离 ， 
计算 量 很 大 。 例如， 数据 集中 个 体 数 量 为 10 时 ,需要 计算 45 对 不 同 个 体 之 间 的 距离 。 然 而 ， 当 个 
体 数 量 为 1000 时 ,要 计算 大 约 50 万 对 个 体 之 间 的 距离 ! 现在 有 很 多 提升 该 算法 速度 的 方法 ,后续 
章节 会 讲 到 儿 种 。 


除了 计算 量 大 之 外 , 该 算法 还 有 一 个 问题 ， 就 是 在 特征 取 离 散 值 的 数据 集 上 表现 很 差 。 遇 到 
这 种 情况 ， 应 该 考虑 使 用 其 他 算法 。 




















2.1.2 ”距离 度量 
距离 是 数据 按 掘 的 核 恋 役 态 之 三 我 们 往往 需要 知道 两 个 个 体 之 间 的 距离 是 多 少 。 更 进一步 
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说 , 我 们 还 得 能 够 解决 一 对 个 体 相对 另 一 对 个 体 是 否 更 相近 等 问题 。 这 类 问题 的 解决 方法 ,将 直 


接 影 响 分 类 结果 。 


人 们 耳熟能详 的 距离 度量 方法 就 是 欧 氏 距离 ， 即 真实 距离 。 假 如 你 在 图 像 中 画 两 个 点 ， 用 直 
尺 测 量 这 两 个 点 之 间 的 距离 ,得 到 的 结果 就 是 欧 氏 距离 。 稍 微 正式 点 来 说 , 它 其 实 是 两 个 特征 向 
量 长 度 平方 和 的 平方 根 。 


欧 氏 距离 确实 很 直观 , 但 是 如 果 某 些 特征 比 其 他 特征 取 值 大 很 多 , 精确 度 就 会 比较 差 。 此 外 ， 
如 果 很 多 特征 值 为 0， 也 就 是 所 谓 的 稀疏 矩阵， 结果 也 不 准确 。 这 时 可 以 用 其 他 距离 度量 方法 ， 
常用 的 有 曼哈顿 距离 和 余弦 距离 。 


曼哈顿 距离 为 两 个 特征 在 标准 坐标 系 中 绝对 轴 距 之 和 (没有 使 用 平方 距离 )。 拿 国际 象棋 
中 的 车 "举例 子 ， 这 样 更 形象 。 假 如 车 每 次 只 能 走 一 格 ， 那 么 它 走 到 当前 格子 对 角 线 那 头 ， 所 
走 的 距离 就 是 曼哈顿 距离 。 虽 然 异 常 值 也 会 影响 分 类 结果 , 但 是 其 所 受 的 影响 要 比 欧 氏 距离 小 
得 多 。 


余弦 距离 更 适合 解决 异常 值 和 数据 稀 玻 问题 。 直 观 上 讲 , 余弦 距离 指 的 是 特征 向 量 夹 角 的 余 
弦 值 。 下 面 为 以 上 三 种 距离 的 示意 图 。 
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在 上 面 每 张 图 中 ,两 个 灰 圆 与 白 圆 之 间 的 距离 是 相等 的 。 左 图 是 欧 氏 距离 ， 因 此 两 个 灰 圆 都 
落 在 以 白 圆 为 圆心 的 同一 个 圆 的 圆周 上 ， 可 以 用 尺子 量 量 看 。 中 间 这 幅 图 表示 的 是 曼哈顿 距离 ， 
它 指 的 是 从 灰 圆 到 白 贺 所 走 的 横向 和 纵向 距离 之 和 ， 也 叫 街 区 距离 ( City Block ), 测量 时 要 想象 
棋 中 车 的 走 法 。 右 图 是 余弦 距离 示意 图 ， 计 算 夹 角 之 间 的 余弦 值 ， 忽 略 特征 向 量 的 长 度 。 


采用 哪 种 距离 度量 方法 对 最 终结 果 有 很 大 影响 。 例 如， 你 的 数据 集 有 很 多 特征 , 但 是 如 果 任 
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Q@ 国际 象棋 中 车 的 走 法 跟 我 国 象棋 中 车 的 走 法 相同 ， 只 能 沿 水 平 或 垂直 方向 移动 。 一 一 译 者 注 
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意 一 对 个 体 之 间 的 欧 氏 距离 都 相等 , 那么 你 就 没 法 通过 欧 氏 距离 进行 比较 了 ! 曼哈顿 距离 在 某 些 
情况 下 具有 更 高 的 稳定 性 , 但 是 如 果 数 据 集中 某 些 特征 值 很 大 , 用 曼哈顿 距离 的 话 ， 这 些 特征 会 
掩盖 其 他 特征 间 的 邻近 关系 。 最 后 ,再 来 说 说 余弦 距离 ， 它 适用 于 特征 向 量 很 多 的 情况 , 但 是 它 
丢弃 了 向 量 长 度 所 包含 的 在 某 些 场景 下 可 能 会 很 有 用 的 一 些 信 息 。 


本 章 ， 我 们 主要 介绍 欧 氏 距离 ， 其 他 距离 后 面 章节 再 介绍 。 







































































2.1.3 ”加 载 数据 集 


即将 用 到 的 数据 集 叫 作 电 离 层 (Ionosphere )， 这 些 数 据 是 由 高 频 天 线 收集 的 。 这 些 天 线 的 目 
的 是 侦 测 在 电离 层 和 高 层 大 气 中 存 不 存在 由 自由 电子 组 成 的 特殊 结构 。 如 果 一 条 数据 能 给 出 特殊 
结构 存在 的 证 据 , 这 条 数据 就 属于 好 的 那 一 类 ( 在 数据 集中 用 “g” 表 示 ), 否则 就 是 坏 的 (用 “b” 
表示 )。 我 们 要 做 的 就 是 建立 分 类 器 ， 自 动 判断 这 些 数 据 的 好 坏 。 








































































































( 图 像 来 自 https:/www.flickr.com/photos/geckzilla/16149273389/ ) 

















Ionosphere 数 据 集 可 以 从 UCI 机 器 学 习 数 据 库 下 载 , 该 数据 库 包 含 大 量 数据 集 , 可 用 于 多 种 数 
据 挖掘 任务 。 打 开 http:/archive.ics.uci.edu/mldatasets/Ionosphere， 点 击 Data Folder。 在 随后 打开 的 
页 面 中 ， 下 载 ionosphere.data 和 ionosphere.names 文 件 。 把 这 两 个 文件 保存 到 用 户主 目录 下 的 Data 
文件 夹 中 。 
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Settings\username。Mac 和 Linux 系 统 中 为 /home/username。 如 果 你 不 确定 ， 可 以 
NS 、、 使 用 下 面 的 Python 代码 输出 主 目录 所 在 位 置 


import os 
print (os.path.expanduser ("~")) 





| 主 目录 的 位 置 取决 于 操作 系统 。Windows 系 统 中 通常 为 C:\Documents and 








该 数据 集 每 行 有 35 个 值 ， 前 34 个 为 17 座 天 线 采集 的 数据 ( 每 座 天 线 采 集 两 个 数据 )。 最 后 一 
个 值 不 是 “g” 就 是 “b”， 表 示 数 据 的 好 坏 ， 即 是 否 提 供 了 有 价值 的 信息 。 


启动 IPython Notebook 服 务 器 ， 新 建 名 为 IJonosphere Nearest Neighbors 的 笔记 本 文件 。 
首先 ， 导 入 numpy 和 csv 库 ， 下 面 会 用 到 。 


import numpy as np 
import csy 


加 载 数据 集 前 , 用 Data 文 件 夹 路 径 、 数 据 集 所 在 的 文件 夹 名 称 和 数据 集 名 称 组 合成 数据 集 文 
件 的 完整 路 径 。 


data_filename = os.path.join(data_folder, "Ionosphere", 
"ionosphere.data") 


创建 Numpy 数 组 x 和 vy 存 放 数据 集 。 数 据 集 大 小 已 知 ,共有 351 行 34 列 。 在 以 后 的 实际 工作 中 ， 
如 果 你 不 知道 数据 集 大 小 也 没关系 一 -后面 章节 会 讲 如 何在 不 知道 数据 集 大 小 的 情况 下 加 载 
具体 怎么 做 现在 不 知道 也 没关系 。 


又 
学 


Ionosphere 数 据 集 文件 为 CSV ( Comma-Separated Values ， 用 逗号 分 隔 数 据 项 ) 格式 ， 这 是 常 
用 的 数据 集 存 储 格式 。 我 们 用 csv 模 块 来 导入 数据 集 文 件 ， 并 创建 csv 阅 读 器 对 象 。 


with open(data_filename, 'r') as input_file: 
reader = csv.reader (input_file) 


接着 , 遍历 文件 中 的 每 一 行 数据 。 每 行 数据 代表 一 组 测量 结果 , 我 们 可 以 将 其 称 作 数 据 集中 
一 个 个 体 。 用 枚 举 函 数 来 获得 每 行 的 索引 号 , 在 下 面 更 新 数据 集 x 中 的 某 一 个 体 时 会 用 到 行 号 。 


for i, row in enumerate (reader): 


获取 每 一 个 个 体 的 前 34 个 值 ， 将 其 强制 转化 为 浮 点 型 ， 保 存 到 x 中 。 

data 

又 [i] 

最 后 ,获取 每 个 个 体 最 后 一 个 表示 类 别 的 值 ， 把 字母 转化 为 数字 ， 如 果 类 别 为 “g”, 值 为 1， 
否则 值 为 0。 


























np.zeros((351，34)，qtype='float') 
np.zeros((351,，)，qQtype='pool ') 

















[float (datum) for datum in row[:-1]] 
data 
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vib) (row Se 


到 此 ， 我 们 就 把 数据 集 读 到 了 数组 x 中 ， 类别 读 入 了 数组 y 中 ， 与 我 们 在 上 一 童 的 做 法 相同 。 





2.1.4 努力 实现 流程 标准 化 


正如 本 章 开 头 讲 过 的 , scikit-learn 估 计 咒 由 两 大 函数 组 成 : fit () 和 predict () 。 用 fit 
方法 在 训练 集 上 完成 模型 的 创建 ， 用 preai ct 方法 在 测试 集 上 评估 效果 。 


首先 ， 需 要 创建 训练 集 和 测试 集 。 导 入 并 运行 train_test_sp1it 国 数 。 









































from sklearn.cross_validation import train test_ split 
xX train, Xx test, y_train, y_test = train test_ split(x, y, random_ 
state=14) 


然后 ， 导 和 人 有 近邻 分 类 器 这 个 类 ， 并 为 其 初始 化 一 个 实例 。 现 阶段 ， 参 数 用 默认 的 即 可 ， 后 
面 再 讲 参 数 调 优 。 该 算法 默认 选择 5 个 近邻 作为 分 类 依据 。 


from sklearn.neighbors import KNeighborsClassifier 
estimator = KNeighborsClassifier() 


估计 器 创建 好 后 ， 接 下 来 就 要 用 训练 数据 进行 训练 。K 近 邻 估计 器 分 析 训 练 集中 的 数据 ， 比 
较 竺 分 类 的 新 数据 点 和 训练 集中 的 数据 ， 找 到 新 数据 点 的 近邻 。 


estimator.fit (x train, y_train) 
接着 ， 用 测试 集 测试 算法 ,评估 它 在 测试 集 上 的 表现 。 


y_predicted = estimator.predict (X_test) 
accuracy = np.meanl(ly_test == y_predicted) * 100 
print ("The accuracy is {0:.1f}%".format (accuracy)) 


正确 率 为 86.4%。 使 用 默认 人 参数， 只 用 少数 几 行 代码 就 能 达到 这 个 效果 ， 真 是 很 历 害 ! 虽然 
scikit-learn 提 供 的 大 多 数 默认 参数 适用 范围 广 ， 效果 也 不 错 , 但 我 们 还 是 要 学 着 根据 实验 的 
实际 情况 ， 尽 可 能 选用 合适 的 参数 值 ， 争 取 达 到 最 佳 效 果 。 















































2.1.5 ”运行 算法 

在 先前 的 几 个 实验 中 , 我 们 把 数据 集 分 为 训练 集 和 测试 集 ， 用 训练 集训 练 算法 ,在 测试 集 上 
评 佑 效果。 倘若 碰巧 走运 , 测试 集 很 简单 ， 我 们 就 会 觉得 算法 表现 很 出 色 。 反 之 , 我 们 可 能 会 1 
疑 算法 很 糟糕 。 也 许 由 于 我 们 一 时 不 走运 ,就 把 一 个 其 实 很 不 错 的 算法 给 无 情 抛弃 了 ,这 岂 不 
很 可 惜 。 


交叉 检验 能 解决 上 述 一 次 性 测试 所 带 来 的 问题 。 既 然 只 切 一 次 有 问题 , 那 就 多 切 几 次 ,多 进 
行 几 次 实验 。 每 次 切 分 时 ,都 要 保证 这 次 得 到 的 训练 集 和 测试 集 与 上 次 不 一 样 ， 还 要 确保 每 条 数 























并 方 
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据 都 只 能 用 来 测试 一 次 。 算 法 描述 如 下 。 
(1) 将 整个 大 数据 集 分 为 几 个 部 分 ( fold? )。 
(2) 对 于 每 一 部 分 执行 以 下 操作 : 

口 将 其 中 一 部 分 作为 当前 测试 集 

口 用 剩余 部 分 训练 算法 

口 在 当前 测试 集 上 测试 算法 

(3) 记录 每 次 得 分 及 平均 得 分 。 

(4) 在 上 述 过 程 中 , 每 条 数据 只 能 在 测试 集中 出 现 一 次 ， 以 减少 〈 但 不 能 完全 规避 ) 运气 成 分 。 











书 中 同一 章 的 代码 ， 前 后 是 紧密 联系 的 ， 所 以 需要 把 它们 放 到 一 个 IPython 
>- Notebook 笔 记 本 文件 中 ， 除 非 我 告诉 你 不 必 这 么 做 。 


scikit-learn 提 供 了 儿 种 交叉 检验 方法 。 有 个 辅助 函数 实现 了 上 述 交 叉 检验 步 又 ， 现 在 把 





from sklearn.cross_validation import cross_val_score 


; cross_val_score 默 认 使 用 Stratified K Fold 方 法 切 分 数据 集 ， 它 大 体 上 保 
KW 证 切 分 后 得 到 的 子 数据 集中 类 别 分 布 相 同 ,以 避免 某 些 子 数据 集 出 现 类 别 分 布 失 
衡 的 情况 。 这 个 默认 做 法 很 不 错 ， 现 阶段 就 不 再 把 它 摘 复杂 了 。 

















我 们 就 来 试 试 这 个 函数 吧 ， 把 完整 的 数据 集 和 类 别 值 传 给 它 。 


scores = cross_val_score(estimator, X, y, scoring='accuracy') 
average_accuracy = np.mean(scores) * 100 
print ("The average accuracy is {0:.1f}%".format (average_accuracy) ) 


哦 ， 结 果 为 82.3%， 较 之 前 稍微 差点 ,但 考虑 到 我 们 还 没有 尝试 调整 参数 ， 这 个 结果 还 是 相 
当 不 错 的 。 下 一 节 ， 我 们 就 来 研究 怎么 通过 调整 参数 达到 更 理想 的 效果 。 





2.1.6 设置 参数 


几乎 所 有 的 数据 挖掘 算法 都 允许 用 户 设置 参数 ,这 样 做 的 好 处 是 增强 算法 的 泛 化 能 力 。 但 是 ， 
参数 设置 可 是 项 技术 活 ， 选 取 好 的 参数 值 跟 数 据 集 的 特征 息息相关 。 





























外行 话 叫 “ 折 ”。 一 一 译 者 注 
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近邻 算法 有 多 个 参数 ， 最 重要 的 是 选取 多 少 个 近邻 作为 预测 依据 。scikit-1learn 管 这 个 参 
数 叫 n_neighbors。 下 图 给 出 两 个 极端 的 例子 ，n_neighbors 过 小 时 ,分 类 结果 容易 受 干 扰 ， 
随机 性 很 强 。 相 反 ， 如 果 n_neignbors 过 大 ， 实 际 近 邻 的 影响 将 削弱 。 


1 @@ 1 @@ 
A e 3- 
oS 和 @ 
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左 图 (a) 中 ， 我 们 通常 希望 把 测试 数据 ( 三 角形 ) 归 到 圆 形 类 别 。 然 而 ， 如 果 n_neighbors 
的 值 为 1!， 由 于 三 角形 附近 红色 菱形 ( 很 可 能 是 噪音 ) 的 存在 ， 导 致 分 类 结果 为 萎 形 ,虽然 萎 形 
集中 在 右 下 角 区 域 。 右 图 (b) 中 ， 我 们 希望 将 测试 数据 归 到 萎 形 类 别 。 然 而 ， 如 果 n_neighbors 
值 为 7， 三 个 最 近 的 邻居 《〈 都 是 菱形 ) 被 四 个 圆 形 给 击败 了 ,三 角形 也 因此 被 归 到 圆 形 类 别 。 


如 果 想 测试 一 系列 n_neighbors 的 值 ， 比 如 从 1 到 20， 可 以 重复 进行 多 次 实验 ， 观 察 不 同 的 
参数 值 所 带 来 的 结果 之 间 的 差异 。 























7 (a) 了 (0) 























avg_scores = [|] 

all_scores = [] 

Parameter values = list(range(1, 21)) # Include 20 

for n_ neighbors in parameter _ values: 
estimator = KNeighborsClassifier(n neighbors=n_ neighbors) 
scores = cross_val_score(estimator, X, y, scoring='accuracy') 


把 不 同 n_neighbors 值 的 得 分 和 平均 分 保存 起 来 ， 留 作 分 析 用 。 


avg_scores.append (np .mean(Scores) ) 
all_scores.append (Scores ) 


为 了 看 起 来 更 直观 ， 我 们 可 以 用 图 表 来 表示 n_neighpors 的 不 同 取 值 和 分 类 正确 率 之 间 的 
关系 。 首 先 需要 告诉 Python Notebook， 我 们 要 在 笔记 本 中 作 图 。 





smatplotlib inline 
然后 ， 从 matplot1ib 库 导入 pyplot， 参 数 为 近邻 数 和 平均 正确 率 。 


from matplotlib import pyplot as plt plt.plot (parameter values, 
avg_scores, '-o') 
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从 上 图 可 以 看 到 , 虽然 有 很 多 曲折 变化 , 但 整体 趋势 是 随 着 近邻 数 的 增加 , 正确 率 不 断 下 降 


流水 线 在 预 处 理 中 的 应 用 





o 


现实 中 , 物体 不 同 特征 的 取 值 范围 会 非常 广 , 它们 的 值 域 可 能 存在 天 坟 之 别 。 例如， 测量 动 


属性 ， 会 得 到 下 面 这 样 千 差 万 别 的 特征 值 。 


口 腿 的 数量 : 大 多 数 动 物 有 0 到 8 条 腿 ， 但 也 有 比 这 多 得 多 的 ! 
口 体重 : 从 几 微 克 到 上 百 吨 都 有 可 能 ， 有 的 蓝 鲸 重 达 190 吨 ! 
口 心脏 数量 : 0 到 5 之 间 ， 蝗 晒 就 有 5 颗 心 脏 。 


对 于 借助 数学 方法 来 比较 特征 的 算法 而 言 ,它们 很 难 理解 特征 在 规模 、 范 围 和 单位 上 的 差异 
































(e) 


我 们 在 多 种 算法 中 使 用 上 述 特征 , 体重 由 于 数值 较 大 ,可 能 都 会 是 最 显著 的 特征 , 但 特征 值 





实际 上 与 该 特征 的 分 类 效果 没有 任何 关系 。 








不 同 特征 的 取 值 范围 千差万别 , 常见 的 解决 方法 是 对 不 同 的 特征 进行 规范 化 , 使 它们 的 特征 

















在 相同 的 值 域 或 从 属于 茶几 个 确定 的 类 别 ， 比 如 小 、 中 和 大 。 一 旦 解决 这 个 问题 ,不同 的 特 





型 对 算法 的 影响 将 大 大 降低 ， 分 类 正确 率 就 能 有 大 幅 提升 。 











选择 最 具 区 分 度 的 特征 、 创 建新 特征 等 都 属于 预 处理 的 范畴 。scikit-learn 的 预 处 理工 具 
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叫 作 转换 器 (Transformer ), 它 接受 原始 数据 集 , 返回 转换 后 的 数据 集 。 除 了 处 理 数 值 型 特征 ， 
转换 名 还 能 用 来 抽取 特征 。 在 这 里 ， 我 们 只 看 下 对 数值 型 特征 的 预 处 理 方法 。 





2.2.1 预 处 理 示 例 


为 了 讲解 需要 ， 先 来 对 Ionosphere 数 据 集 做 些 破 坏 。 虽 然 这 里 的 麻烦 是 人 为 制造 的 ， 但 是 这 
些 问题 在 很 多 真实 数据 集 里 都 存在 。 首 先 ， 为 了 不 破坏 原来 的 数据 集 ， 我 们 为 其 创建 一 个 副本 。 





























X_broken = np.array (X) 


接 下 来 ,我 们 就 要 捣乱 了 ， 每 隔 一 行 ， 就 把 第 二 个 特征 的 值 除 以 10。 








X_broken[:,::2] /= 10 


理论 上 讲 ， 这 样 做 对 结果 影响 应 该 不 大 。 毕 竟 ， 除 以 10 之 后 ,各 个 特征 相差 不 大 。 主 要 的 问 
题 是 ， 数 值 范围 变 了 ， 奇 数 行 的 第 二 个 特征 要 比 偶数 行 的 大 。 再 次 计算 正确 率 看 一 下 效果 。 








estimator = KNeighborsClassifier() 

original_scores = cross_val_ score(estimator, X, y, 
scoring='accuracy') 

print ("The original average accuracy for is 

{0:.1f}%".format (np.mean (original_scores) * 100)) 

broken_ scores = cross_val_score(estimator, X_broken, y, 
scoring='accuracy') 

print ("The 'broken' average accuracy for is 
{0:.1f}%".format (np.mean (broken scores) * 100)) 


还 记得 吧 , 在 原始 数据 集 上 的 正确 率 为 82.3%, 这 次 跌 至 71.5%。 把 特征 值 转变 到 0 到 1 之 间 就 
能 解决 这 个 问题 。 


2.2.2 ”标准 预 处 理 

我 们 接 下 来 用 MinMaxscaler 类 进行 基于 特征 的 规范 化 。 在 本 章 的 笔记 本 文件 中 ,接着 之 前 
的 代码 写 ， 首 先导 入 所 需 的 类 。 

from sklearn.preprocessing import MinMaxScaler 

这 个 类 可 以 把 每 个 特征 的 值 域 规范 化 为 0 到 1 之 间 。 最 小 值 用 0 代替 ,最 大 值 用 1 代替 ， 其余 值 
介 于 两 者 之 间 。 

接 下 来 ， 对 数据 集 X 进 行 预 处 理 。 我 们 在 预 处 理 器 MinMaxscaler 上 调用 转换 函数 。 有 些 转 
换 器 要 求 像 训练 分 类 器 那样 先进 行 训练 ， 但 是 MinMaxscaler 不 需要 ,直接 调用 
fit txransform() 国 数 ， 即 可 完成 训练 和 转换 。 


























XxX_transformed = MinMaxScaler() .fit_ transform(x) 
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X_transformed 与 X 行 列 数 相等 ， 为 同型 矩阵 。 然 而， 前 者 每 列 值 的 值 域 为 0 到 1。 
还 有 很 多 其 他 类 似 的 规范 化 方法 ， 对 于 其 他 类 型 的 应 用 和 特征 类 型 会 很 有 用 。 


口 为 使 每 条 数据 各 特征 值 的 和 为 1， 使 用 sklearn.preprocessing.Normalizer。 
口 为 使 各 特征 的 均值 为 0， 方 差 为 1， 使 用 sklearn.preprocessing.StandardScaler,， 

















党 用 作 规 范 化 的 基准 。 
口 为 将 数值 型 特征 的 二 值 化 , 使 用 sklearn.preprocessing.Binarizer， 大 于 阔 值 的 为 
1， 反 之 为 0。 


后 续 章 节 ， 将 会 组 合 运用 上 述 预 处 理 方法 及 其 他 转换 器 对 象 。 


2.2.3 组 装 起 来 
现在 我 们 把 前 几 节 所 讲 的 代码 组 合 起 来 ， 创 建 一 套 完整 的 工作 流 ， 处 理 被 破坏 过 的 数据 集 。 


XxX_transformed = MinMaxScaler().fit_transform(X_broken) 

estimator = KNeighborsClassifier() 

transformed_scores = cross_val_score(estimator, X_ transformed, y, 
scoring='accuracy') 

print ("The average accuracy for is 
{0:.1f}%".format (np.mean (transformed_ scores) * 100)) 


正确 率 再 次 升 到 82.3%。 寺 征 规范 化 到 相同 的 值 域 ， 这 样 特征 就 不 会 仅仅 
因为 值 大 而 具备 更 强 的 区 分 度 。 简单 总 结 下 ,异常 值 会 影响 近邻 算法 , 不同 算 法 对 值 域 大 小 的 敏 
感度 不 同 。 

















2.3 ”流水线 


随 着 实验 的 增加 ， 操 作 的 复杂 程度 也 在 提高 。 我 们 可 能 需要 切 分 数据 集 ， 对 特征 进行 二 值 化 
处 理 ， 以 特征 或 数据 集中 的 个 体 为 基础 规范 化 数据 ， 除 此 之 外 还 可 能 需要 其 他 各 种 操作 。 


要 跟踪 记录 所 有 这 些 操作 可 不 容易 ,如 果 中 间 出 点 问题 ， 先 前 实验 的 结果 将 很 难 再 现 。 常 见 
问题 有 落下 步骤 ， 数 据 转换 错误 ,或 进行 了 不 必要 的 转换 操作 等 。 


男 一 个 问题 就 是 代码 的 先后 顺序 。 上 一 节 ， 我 们 创建 了 x_transformed 数 据 集 ,然后 创建 
了 一 个 新 的 估计 器 用 于 交叉 检验 。 如 果 有 多 个 步骤 ， 就 需要 眼 踪 代 码 中 对 数据 集 进行 的 每 一 步 
操作 。 


流水 线 结构 就 是 用 来 解决 这 些 问 题 的 ( 当然 不 限于 这 些 ， 下 一 章 会 讲 到 它 在 其 他 方面 的 应 
用 )。 流 水 线 把 这 些 步 又 保存 到 数据 挖掘 的 工作 流 中 。 之 后 你 就 可 以 用 它们 读 和 数据， 做 各 种 必 
要 的 预 处 理 ， 然 后 给 出 预测 结果 。 我 们 可 以 在 cross_val_score 等 接收 估计 器 的 函数 中 使 用 流 
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水 线 。 创 建 流水 线 前 ， 先 导入 Pipeline 对 象 。 

from sklearn.pipeline import Pipeline 

流水 线 的 输入 为 一 连 串 的 数据 挖掘 步 又 ， 其 中 最 后 一 步 必 须 是 估计 器 ,前 几 步 是 转换 器 。 输 
人 的 数据 集 经 过 转换 需 的 处 理 后, 输出 的 结果 作为 下 一 步 的 输入 。 最 后 , 用 位 于 流水 线 最 后 一 步 
的 估计 器 对 数据 进行 分 类 。 我 们 流水 线 分 为 两 大 步 。 

(1) 用 MinMaxscaler 将 特征 取 值 范围 规范 到 0~1。 

(2) 指定 KNeighborsClassifier 分 类 器 。 

每 一 步 都 用 元 组 (“名称 "， 步 又 ) 来 表示 。 现 在 来 创建 流水 线 。 


scaling pipeline = Pipeline([('scale', MinMaxScaler()), 
('predict', KNeighborsClassifier())]) 



































流水 线 的 核心 是 元 素 为 元 组 的 列表 。 第 一 个 元 组 规范 特征 取 值 范 围 , 第 二 个 元 组 实现 预测 功 
能 。 我 们 把 第 一 步 叫 作 规范 特征 取 值 (scale )， 第 二 步 叫 作 预 测 ( predict )， 也 可 以 用 其 他 名 字 。 
元 组 的 第 二 部 分 是 实际 的 转换 器 对 象 或 估计 器 对 象 。 


流水 线 写 好 后 ， 运 行 它 很 简单 。 使 用 先前 用 到 的 交叉 检验 代码 看 一 下 实际 效果 。 


Scores = cross_val_score(scaling pipeline, Xx_broken, y, 
scoring='accuracy') 

print ("The pipeline scored an average accuracy for is {0:.1f}%". 
format (np.mean (transformed_ scores) * 100)) 


运行 结果 跟 之 前 一 样 ( 82.3% )， 表 明 我 们 这 次 用 到 的 步骤 跟 之 前 相同 。 


后 续 章 节 会 使 用 更 高 级 的 测试 方法 ,而 设置 流水 线 就 很 有 必要 ， 因 为 它 能 确保 代码 的 复杂 程 
度 不 至 于 超出 掌控 范围 。 



































2.4 小 结 





本 章 , 我 们 用 scikxit-1learn 库 提供 的 几 个 方法 ,创建 了 运行 和 评 佑 数据 挖掘 模型 的 标准 工 
作 流 。 还 介绍 了 近邻 算法 ，scikit-learn 将 其 封装 为 一 个 估计 器 ,使 用 起 来 很 简单 :首先 调用 
£it 函 数 在 训练 集 上 进行 训练 ， 然 后 用 pregict 函 数 在 测试 集 上 评 人 效果。 

本 章 还 通过 解决 不 同 特征 值 域 影响 分 类 效果 的 问题 , 讲解 了 预 处 理 方法 , 主要 用 到 了 转换 器 
对 象 和 MinMaxScaler 类 。 它 们 也 有 训练 (fit ) 和 转换 方法 ， 在 转换 阶段 ， 接 收 数据 集 ， 返 回 
处 理 过 的 数据 集 。 


下 一 章 , 我 们 尝试 把 学 到 的 这 些 概 念 应 用 到 一 个 大 一 点 的 例子 上 , 学 着 预测 NBA (美国 职业 
篮球 联赛 ) 比赛 结果 ， 其 中 使 用 的 数据 集 可 是 真实 的 哦 。 




















用 决策 树 预 测 获 胜 球 队 











本 章 介 绍 另 一 种 分 类 算法 一 一 决策 树 , 用 它 预 测 NBA 篮 球赛 的 获胜 球 队 。 比 起 其 他 算法 , 决 
策 树 有 很 多 优点 ,其 中 最 主要 的 一 个 优点 是 决策 过 程 是 机 器 和 人 都 能 看 懂 的 , 我 们 使 用 机 器 学 习 
到 的 模型 就 能 完成 预测 任务 。 正 如 我 们 将 在 本 章 讲 到 的 , 决策 树 的 另 一 个 优点 则 是 它 能 处 理 多 种 
不 同类 型 的 特征 。 

本 章 主 要 内 容 有 : 

口 用 pandas 库 加 载 、 处 理 数据 

口 决策 树 

口 随机 森林 

口 对 真实 数据 集 进行 数据 挖掘 
口 创建 新 特征 ， 用 强 有 力 的 框架 对 其 进行 测试 



































3.1 加 载 数据 集 


本 章 将 介绍 怎样 预测 NBA 获 胜 球 队 。 如 果 你 看 过 NBA， 可 能 知道 比赛 中 两 支 球 队 比分 咬 得 
很 紧 ， 难 分 胜 负 ， 有 时 最 后 一 分 钟 才能 定 输赢 ， 因 此 预测 赢家 很 难 。 很 多 体育 赛事 都 有 类 似 的 特 
点 ， 预 期 的 大 赢家 也 许 当 天 被 另 一 支队 伍 给 打败 了 。 


以 往 很 多 对 体育 赛事 预测 的 研究 表明 ， 正 确 率 因 体育 赛事 而 异 ， 其 上 限 在 70%~80% 之 间 。 
体育 赛事 预测 多 采用 数据 挖掘 或 统计 学 方法 。 














3.1.1 采集 数据 


我 们 将 使 用 NBA 2013 一 2014 赛 季 的 比赛 数据 。http:/Basketball-Reference.com 网 站 提供 了 NBA 
及 其 他 赛事 的 大 量 资料 和 统计 数据 。 请 按 以 下 方法 下 载 数据 。 

(1) 在 浏览 右 中 打开 http:W/www.basketball-reference.conyleagues 人 NBA_2014 games.html。 

(2) 点 击 标题 Regular Season 旁 边 的 Export 按 钮 。 
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(3) 将 文件 下 载 到 Data 文 件 夹 ， 记 录 文 件 的 路 径 。 

数据 文件 格式 为 CSV， 包 含 了 NBA 常 规 赛季 的 1230 场 比赛 。 

CSV 为 简单 的 文本 格式 文件 ， 每 行为 一 条 用 逗号 分 隔 的 数据 ( 文件 格式 的 名 字 就 是 这 么 来 
的 )。 在 记事 本 里 输入 内 容 , 保存 时 使 用 .csv 扩 展 名 ,也 能 生成 CSV 文 件 。 只 要 能 阅读 文本 文件 的 
编辑 器 ， 就 能 打开 CSV 文 件 ， 也 可 以 用 Excel 把 它 作 为 电子 表格 打开 。 

我 们 用 pandas ( Python Data Analysis 的 简写 ， 意 为 Python 数据 分 析 ) 库 加 载 这 些 数据 ，pandas 


在 数据 处 理 方面 特别 有 用 。Python 内 置 了 读 写 CSV 文 件 的 csv 库 。 但 是 ， 考 虑 到 后 面 创建 新 特征 
时 还 要 用 到 pandas 更 强大 的 一 些 了 图 数 ， 所 以 我 们 干脆 用 pandas 加 载 数据 文件 。 






































scikit-learn 库 时 用 的 就 是 pip3。pandas 的 安装 方法 如 下 : 
~ 
QS Spip3 install pandas 
安装 过 程 中 若 遇 到 任何 困难 ， 请 访问 http:/pandas.pydata.org/getpandas.html， 
根据 自己 的 系统 ， 阅 读 相 关 安 装 指 南 。 


3.1.2 ”用 pandas 加 载 数据 集 
pandas 库 是 用 来 加 载 、 管 理 和 处理 数据 的 。 它 在 后 台 人 处 理 数据 结构 ， 支 持 诸 计算 均值 等 分 析 
方法 。 

如 果 做 过 大 量 数据 挖掘 实 验 ， 就 会 发 现 自己 翻来覆去 地 编写 文件 读 取 、 特 征 抽取 等 函数 。 而 
些 函 数 每 重新 实现 一 次 ， 都 可 能 引入 新 错误 。 使 用 pandas 等 封装 了 很 多 功能 的 库 ， 能 有 效 减 少 
复 实 现 上 述 函 数 所 带 来 的 工作 量 ， 并 能 保证 代码 的 正确 性 。 

本 书后 面 会 陆续 介绍 更 多 的 数据 挫 气 案例， 我 们 将 大 量 使 用 pandas。 

用 reagd_csv 函 数 就 能 加 载 数据 集 : 


import pandas as pd 
dataset = pd.read csv(data_filename) 


上 述 代 码 会 加 载 数 据 集 , 将 其 保存 到 数据 框 ( dataframe ) 中 。 数 据 框 提供 了 一 些 非常 好 用 的 
方法 ,后面 会 用 到 。 我 们 来 看 看 数据 集 是 否 有 问题 。 输 入 以 下 代码 ， 输 出 数据 集 的 前 5 行 : 


dataset .ix[:5] 


输出 结果 如 下 。 























这 
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Out[47]: 
[oa NaN Visitor/Neutral [pTs [Homemeutral PTS NaN | Notes 
Orlando Magic |s7 | ndiana Pacers 97 NaN | NaN 
Tue Oct 29 2013 | Box Score | Los Angeles Clippers | 103 | Los Angeles Lakers |116 | NaN | NaN 
Chicago Bulls 95 |Miami Heat 107 |NaN | NaN 
|wed Oct 30 2013 | Box Score| Brooklyn Nets |94 |Cleveland Cavaliers |98 NaN | NaN 




















从 输出 结果 来 看 ， 这 个 数据 集 可 以 用 ,但 存在 儿 个 小 问题 。 下 面 我 们 就 来 修复 这 些 问题 。 





3.1.3 ”数据 集 清 

从 上 面 的 输出 结果 中 ， 我 们 发 现 了 以 下 几 个 问题 。 
口 日 期 是 字符 串 格式 ， 而 不 是 日 期 对 象 。 
口 第 一 行 没有 数据 。 
口 从 视觉 上 检查 结果 ， 发 现 表 头 不 完整 或 者 不 正确 。 

这 些 问题 来 自 数据 , 我 们 可 以 改动 数据 本 身 , 但 是 这 样 做 的 话 , 容易 忘记 之 前 做 过 哪些 操作 ， 
落下 步 又 或 是 弄 错 哪 一 步 ， 因而 无 法 重 现 之 前 的 结果 。 我 们 像 前 一 章 用 流水 线 跟踪 数据 预 处 理 流 
程 那 样 ， 用 pandas 对 原始 数据 进行 预 处 理 。 


pandas. read_csv 函 数 提供 了 可 用 来 修复 数据 的 参数 ， 导入 文件 时 指定 这 几 个 参数 就 好 。 
导入 后 ， 我 们 还 可 以 修改 文件 的 头 部 ， 如 下 所 示 : 




















dataset = pd.read csv(data_ filename, parse_ dates=["Date"], 
skiprows=[0,]) 

dataset.columns = ["Date", "Score Type", "Visitor Team", 
"VisitorPts", "Home Team", "HomePts"， "OT?", "Notes"] 


经 过 这 些 处 理 之 后 ， 结 果 会 有 很 大 改善 ,我们 再 来 输出 前 5 行 看 看 : 
dataset .ix[:5] 


结果 如 下 。 





Out[48]: 





Date Score Type | Visitor Team VisitorPts | Home Team HomePts | OT? | Notes 
2013-10-29 | Box Score |Orlando Magic 87 Indiana Pacers NaN 





2013-10-29 | Box Score |Los Angeles Clippers | 103 Los Angeles Lakers NaN 
2013-10-29 | Box Score |Chicago Bulls 95 Miami Heat NaN 
2013-10-30 | Box Score |Brooklyn Nets 94 Cleveland Cavaliers NaN 
2013-10-30 | Box Score |Atlanta Hawks 109 Dallas Mavericks NaN 
2013-10-30 | Box Score | Washington Wizards | 102 Detroit Pistons 113 NaN | NaN 
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即使 原始 数据 很 规整 ， 比 如 刚 使 用 的 这 个 ， 我们 仍 需 要 对 其 做 些 调 整 。 其 中 一 个 原因 是 , 文 
件 可 能 来 自 不 同 的 系统 ， 由 于 存在 兼容 性 问题 ， 文 件 也 许 会 发 生变 化 。 

既然 数据 已 经 准备 好 , 在 开始 编写 预测 算法 之 前 , 我们 先 定 下 一 个 正确 率 作为 基准 。 该 基准 
任何 算法 都 应 该 能 达到 。 

每 场 比赛 有 两 个 队 : 主场 队 和 客场 队 。 最 直接 的 方法 就 是 拿 几 率 作为 基准 ， 猜 中 的 几率 为 
50%。 猜 测 任意 一 支 球 队 获 胜 ， 都 有 一 半 胜 算 。 















































3.1.4 提取 新 特征 


我 们 接 下 来 通过 组 合 和 比较 现 有 数据 抽取 特征 。 首 先 , 确定 类 别 值 。 在 测试 阶段 , 拿 算 法 得 
到 的 分 类 结果 与 它 对 比 ， 就 能 知道 结果 是 否 正确 。 类 别 可 以 有 多 种 表示 方法 ， 我 们 这 里 用 1 表示 
主场 队 获胜 ， 用 0 表示 客场 队 获胜 。 对 于 篮球 比赛 而 言 ， 得 分 最 多 的 队伍 获胜 。 虽 然 数据 集 没有 
明确 给 出 各 球 队 的 胜 负 情 况 ， 但 是 稍 加 计算 就 能 得 到 。 


找 出 主场 获胜 的 球 队 : 
dataset["HomeWin"] = qataset["VisitorPts"] < dataset{["Homepts"] 


我 们 把 主场 获胜 球 队 的 数据 保存 到 NumPy 数 组 里 , 稍 后 要 用 scikit-1learn 分 类 器 对 其 进行 
处 理 。 当 前 pandas 和 scikit-1learn 并 没有 进行 整合 ， 但 是 借助 NumPy 数 组 ， 它 们 配合 地 很 好 。 
我 们 用 pandas 抽 取 特 征 后 再 用 scikit-learn 抽 取 寺 征 具体 的 值 。 





























y_true = dataset["HomeWin"] .values 

上 面 的 y_true 数 组 保存 的 是 类 别 数 据 ，scikit-learn 可 直接 读 取 该 数组 。 

我 们 还 可 以 创建 一 些 特征 用 于 数据 挖掘 。 有 时 候 ， 只 要 把 原始 数据 丢 给 分 类 器 就 行 了 , 但 通 
常 需要 先 抽取 数值 型 或 类 别 型 特征 。 

首先 ,创建 两 个 能 帮助 我 们 进行 预测 的 特征 ,分 别 是 这 两 支队 伍 上 场 比赛 的 胜 负 情况 。 赢 得 
上 场 比赛 ， 大 致 可 以 说 明 该 球 队 水 平 较 高 。 

遍历 每 一 行 数 据 ,， 记 录 获 胜 球 队 。 当 到 达 一 行 新 数据 时 ， 分 别 查看 该 行 数 据 中 的 两 支 球 队 在 
各 自 的 上 一 场 比赛 中 有 没有 获胜 的 。 

创建 (默认 ) 字典 ， 存储 球 队 上 次 比赛 的 结果 。 


from collections import defaultdict 
won_last = defaultdict (int) 


字典 的 键 为 球 队 ， 值 为 是 否 启 得 上 一 场 比赛 。 遍历 所 有 行 ， 在 此 过 程 中 ， 更 新 每 一 行 ， 为 其 
增加 两 个 特征 值 : 两 支 球 队 在 上 场 比赛 有 没有 获胜 。 
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for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
Visitor team = row["Visitor Team"] 


row["HomeLastWin"] = won_l1ast [home_team] 
row["VisitorLastWin"] = won_ last[visitor team] 
dataset.ix[index] = row 























请 注意 ,上 述 代 码 假 定数 据 集 是 按照 时 间 顺 序 排列 的 。 我们 所 使 用 的 数据 集 是 按 这 种 顺序 排 
列 的 ， 如 果 你 的 数据 集 不 是 这 样 ， 你 需要 把 代码 中 的 dataset .iterrows () 替换 为 aataset . 


sort ("Date").iterrows()o 


用 当前 比赛 ( 遍历 到 的 那 一 行 数据 所 表示 的 比赛 ) 的 结果 更 新 两 支 球 队 上 场 比赛 的 获胜 
以 便 下 次 再 遍历 到 这 两 支 球 队 时 使 用 。 代 码 如 下 : 


won_last[home_ team] = row["HomeWin"] 
won_last[visitor team] = not row["HomeWin"] 


上 述 代 码 运 行 结 束 后 , 我 们 多 了 两 个 新 特征 : HomeLastWin 和 VisitorLastWin。 我 们 再 来 看 下 
数据 集 。 这 次 只 看 前 5 条 意义 不 大 。 只 有 一 个 球 队 参 加 过 两 场 比赛 后 ,我们 才 知 道 它 在 上 场 比 赛 
表现 如 何 。 以 下 代码 将 输出 本 赛季 第 20~25 场 比赛 : 


dataset .ix[20:25] 


输出 结果 如 下 : 























情况 ， 






































Out[52]: 
Date Ts Visitor Team VisitorPts | Home Team HomePts | OT? | Notes | HomeWin | HomeLastWin | VisitorLastWin 
20|2013-11-01 | Box Score | Milwaukee Bucks 105 Boston Celtics 98 NaN |NaN |False False False 
21 |2013-11-01 | Box Score |Miami Heat 100 Brooklyn Nets 101 NaN |NaN |True False False 
22|2013-11-01 |Box Score |Cleveland Cavaliers |84 Charlotte Bobcats |90 NaN |NaN |True False True 
23|2013-11-01|Box Score Eee 二 本 113 Denver Nuggets “|98 NaN | NaN |False |False False 
24|2013-11-01|Box Score |Dallas Mavericks 105 Houston Rockets |113 NaN |NaN |True True True 
25|2013-11-01|Box Score | San Antonio Spurs |91 We oe 85 NaN |NaN |False False True 





















































更 换 上 述 代 码 中 的 索引 值 ， 查 看 其 他 部 分 数据 。 别 忘 了 ， 一 共有 1000 多 场 比赛 呢 ! 

现在 , 每 个 队 (包括 上 个 赛季 的 冠军 ! ) 在 数据 集中 第 一 次 出 现时 ,都 假定 它们 在 上 场 比赛 
中 失败 。 其 实 可 以 用 上 一 年 的 数据 弥补 缺失 的 信息 ， 从 而 改进 这 个 特征 ， 但 这 里 就 先 做 简单 处 
理 了 。 





3.2 ”决策 树 


决策 树 是 一 种 有 监督 的 机 器 学 习 算法 , 它 看 起 来 就 像 是 由 一 系列 节点 组 成 的 流程 图 , 其 中 位 
于 上 层 节 点 的 值 决 定 下 一 步 走向 哪个 节点 。 
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Yes No 























跟 大 多 数 分 类 算法 一 样 ， 决 策 树 也 分 为 两 大 步骤 。 


口 首先 是 训练 阶段 ， 用 训练 数据 构造 一 棵 树 。 上 一 章 的 近邻 算法 没有 训练 阶段 ， 但 是 决策 
树 需要 。 从 这 个 意义 上 说 ， 近 邻 算法 是 一 种 惰性 算法 ， 在 用 它 进 行 分 类 时 ， 它 才 开 始 干 
活 。 相 反 ， 决 策 树 跟 大 多 数 机 器 学 习 方 法 类 似 ， 是 一 种 积极 学 习 的 算法 ， 在 训练 阶段 完 
成 模型 的 创建 。 
口 其 次 是 预测 阶段 ,用 训练 好 的 决策 树 预 测 新 数据 的 类 别 。 以 上 图 为 例 ，["is raining"， 
"very windgy"] 的 预测 结果 为 “Bad” ( 坏 天 气 ) 。 
创建 决策 树 的 算法 有 多 种 ， 大 都 通过 迭代 生成 一 棵 树 。 它 们 从 根 节 点 开始 ， 选 取 最 佳 特征 ， 
用 于 第 一 个 决策 ,到 达 下 一 个 节点 ， 选 择 下 一 个 最 佳 特征 ， 以 此 类 推 。 当 发 现 无 法 从 增加 树 的 层 
级 中 获得 更 多 信息 时 ， 算 法 启动 退出 机 制 。 
scikit-learn 库 实现 了 分 类 回归 树 ( Classification and Regression Trees，CART ) 算法 并 将 
其 作为 生成 决策 树 的 默认 算法 ， 它 支持 连续 型 特征 和 类 别 型 特征 。 



























































3.2.1 决策 树 中 的 参数 


退出 准则 是 决策 树 的 一 个 重要 特性 。 构 建 决 策 树 时 ， 最 后 几 步 决策 仅 依赖 于 少数 个 体 ， 随 意 
性 大 。 使 用 特定 节点 作出 推测 容易 导致 过 拟 合 训练 数据 , 而 使 用 退出 准则 可 以 防止 决策 精度 过 高 。 


除了 设 定 退 出 准则 外 , 也 可 以 先 创建 一 棵 完整 的 树 ， 再 对 其 进行 修剪 ， 去 掉 对 整个 过 程 没 有 
提供 太 多 信息 的 节点 。 这 个 过 程 叫 作 剪 校 (pruning ) 。 


scikit-learn 库 实现 的 决策 树 算法 给 出 了 退出 方法 ,使 用 下 面 这 两 个 选项 就 可 以 达到 目的 。 


DD min samples_split: 指定 创建 一 个 新 节点 至 少 需 要 的 个 体 数 量 。 
口 min_samples_leaf: 指定 为 了 保留 节点 ， 每 个 节点 至 少 应 该 包含 的 个 体 数量 。 


第 一 个 参数 控制 着 决策 节点 的 创建 ， 第 二 个 参数 决定 着 决策 节点 能 和 否 被 保留 。 
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决策 树 的 另 一 个 参数 是 创建 决策 的 标准 ， 常 用 的 有 以 下 两 个 。 


口 基尼 不 纯度 (Gini impurity ): 用 于 衡量 决策 节点 错误 预测 新 个 体 类 别 的 比例 。 
口 信息 增益 ( Information gain ): 用 信息 论 中 的 炉 来 表示 决策 节点 提供 多 少 新 信息 。 








3.2.2 ”使 用 决策 树 
从 scikit-learn 库 中 导 和 人 DecisionTreeClassifier 类 ， 用 它 创 建 决策 树 。 


from sklearn.tree import DecisionTreeClassifier 
clf = DecisionTreeClassifier(random state=14) 


我 们 再 次 设 定 random_state 的 值 为 14。 本 书 中 凡是 用 到 random_state 的 

> 地 方 ， 我 们 都 用 该 值 。 使 用 相同 的 随机 种 子 (random seed ) ， 能 够 保证 几 次 实 

验 结果 相同 。 然 而 ,在 以 后 自己 的 实验 中 , 为 保证 算法 的 性 能 不 是 与 特定 的 随机 
状态 值 相关 ， 在 前 后 几 次 实验 中 ， 需 使 用 不 同 的 随机 状态 。 





现在 我 们 从 pandas 数 据 框 中 抽取 数据 ， 以 便 用 scikit-learn 分 类 器 处 理 。 指 定 需 要 的 列 ， 
使 用 数据 框 的 values 属 性 ， 就 能 获取 到 每 支 球 队 的 上 一 场 比 赛 结 


X_ previouswins = dataset[["HomeLastWin", "VisitorLastWin"]] .values 


跟 第 2 章 的 近邻 算法 类 似 ， 决 策 树 也 是 一 种 佑 计 器 ， 因 此 它 同 样 有 fit 和 predict 方 法 。 我 
们 仍然 可 以 用 cross_val_score 方 法 来 求 得 交叉 检验 的 平均 正确 率 : 
scores = Cross_Val_score(c1Lf，X_ previouswins, y_true, 


scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


正确 率 为 56.1%， 比 起 随机 预测 来 要 更 准确 ! 我 们 应 该 可 以 做 得 更 好 。 从 数据 集中 构建 有 效 
特征 (Feature Engineering, 特征 工程 ) 是 数据 挖掘 的 难点 所 在 ,好 的 特征 直接 关系 到 结果 的 正确 
率 一 一 其 至 比 选择 合适 的 算法 更 重要 | 














3.3 ”NBA 比赛 结果 预测 
尝试 使 用 不 同 的 特征 ， 我 们 应 该 能 做 得 更 好 。cross_va1_score 方 法 可 用 来 测试 模型 的 正 
确 率 。 有 了 它 ， 我 们 就 可 以 尝试 其 他 特征 的 分 类 效果 。 


好 多 潜在 特征 都 可 以 拿 来 用 。 就 我 们 这 个 挖掘 任务 而 言 , 具体 怎么 选择 特征 呢 ? 我们 尝 试问 
自己 以 下 两 个 问题 。 
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口 一 般 而 言 ， 什 么 样 的 球 队 水 平 更 高 ? 
口 两 支 球 队 上 一 次 相遇 时 ， 谁 是 赢家 ? 


我 们 还 将 加 入 新 球 队 的 数据 ， 以 检测 算法 是 否 能 得 到 一 个 用 来 判断 不 同 球 队 比 赛 情况 的 模型 。 








组 装 起 来 


对 于 上 面 第 一 个 特征 ， 我们 创建 一 个 叫 作 “主场 队 是 否 通 常 比 对 手 水 平 高 ”的 特征 ， 并 使 用 
2013 赛 季 的 战绩 作为 特征 取 值 来 源 。 如 果 一 支 球 队 在 2013 赛 季 排 名 在 对 手 前 面 , 我 们 就 认为 它 的 
水 平 更 高 。 


战绩 数据 下 载 方法 如 下 。 


(1) 在 浏览 器 中 打开 http://www.basketball-reference.com/leagues/NBA 2013_standings.html。 
(2) 找到 Expanded Standings 部 分 ， 该 部 分 包括 所 有 球 队 的 数据 。 

(3) 点 击 Export 链 接 。 

(4) 将 数据 保存 到 数据 文件 夹 中 。 


回 到 IPython Notebook 笔 记 本 文件 ， 在 新 格子 里 输入 以 下 代码 。 请 注意 将 战绩 文件 保存 到 
data_foldqer 变 量 指定 的 目录 下 。 



































standings_filename = os.path.join(dqata_foldqer， 
"leagues_NBA 2013_standings_expanded-standings.csv") 
standings = pd.read csv(standings_filename, skiprows=[0,1]) 


在 笔记 本 新 格子 里 输入 standings 并 运行 ， 查 看 战绩 。 


standings 


输出 如 下 。 


























































































































a Rk |Team Overall Home | Road |E W A IC ISE |…|Post |<3 |>210 |Oct |Nov |Dec |Jan |Feb |Mar |Apr 
0 |1 |Miami Heat 66-16 |37-4 |29-12|41-11|25-5 |14-4|12-6|15-1|...|30-2 |9-3 |39-8 |1-0 |10-3|10-5|8-5 |12-1|17-1|8-1 
1 |2 |Oklahoma City Thunder |60-22 |34-7 |26-15|21-9 |39-13|7-3 |8-2 |6-4 |...|21-8 |3-6 |44-6 |NaN|13-4|11-2|11-5|7-4 |12-5|6-2 
2 |3 |San Antonio Spurs 58-24 |35-6 |23-18|25-5 |33-19|8-2 |9-1 |8-2 |...|16-12|9-5 |31-10|1-0 |12-4|12-4|12-3|8-3 |10-4|3-6 
3 |4 |Denver Nuggets 57-25 |38-3 |19-22|19-11|38-14|5-5 |10-0|4-6 |…|24-4 |11-7|28-8 |0-1 |8-8 |9-6 |12-3|8-4 |13-2|7-1 
4 |5 |Los Angeles Clippers 56-26 |32-9 |24-17|21-9 |35-17|7-3 |8-2 |6-4 |…|17-9 |3-5 |38-12|1-0 |8-6 |16-0|9-7 |8-5 |7-7 |7-1 
5 |6 |Memphis Grizzlies 56-26 |32-9 |24-17|22-8 |34-18|8-2 |8-2 |6-4 |…|23-8 |6-4 |28-9 |0-1 |12-1|7-7 |10-7|9-2 |11-6|7-2 
6 |7 |New York Knicks 54-28 |31-10 |23-18|37-15|17-13|10-6|12-6|15-3|...|22-10|7-5 |31-12|NaN|11-4|10-5|7-6 |6-5 |12-6|8-2 
7 |8 |Brooklyn Nets 49-33 |26-15 |23-18|36-16|13-17|11-5|13-5|12-6|...|18-11|9-4 |23-17|NaN|11-4|5-11|11-4|7-5 |8-7 |7-2 
8 |9 |Indiana Pacers 49-32 |30-11 |19-21|31-20|18-12|6-11|13-3|12-6|...|17-11|4-9 |27-14|1-0 |7-8 |10-5|9-6 |9-3 |11-5|2-5 
9 |10 |Golden State Warriors |47-35 |28-13 |19-22|19-11|28-24|7-3 |5-5 |7-3 |...|17-13|5-3 |20-18|1-0 |8-6 |12-4|8-7 |4-8 |9-7 |5-3 
接 下 来 ,创建 一 个 新 特征 , 创建 过 程 与 上 个 特征 类 似 。 遍 历 每 一 行 ， 查找 主场 队 和 客场 队 两 
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支 球 队 的 战绩 。 代 码 如 下 : 


dataset["HomeTeamRanksHigher"] = 0 

for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
visitor_ team = row["Visitor Team"] 


有 些 球 队 2014 赛 季 改 名 了 ， 名字 不 同 但 其 实 还 是 同一 支 球 队 。 类 似 情况 在 整合 不 同 的 数据 
集 时 经 常 遇 到 ! 所 以 在 查找 球 队 时 ,需要 把 它 换 成 原来 的 名 字 ， 以 确保 正确 找到 该 球 队 先 前 的 
排名 。 























if home team == "New Orleans Pelicans": 
home_team = "New Orleans Hornets" 

elif visitor team == "New Orleans Pelicans": 
visitor_ team = "New Orleans Hornets" 


现在 就 能 得 到 两 支 球 队 的 排名 ， 比 较 它 们 的 排名 ， 更 新 特征 值 。 


home_rank = standings[standings["Team"] == 
home_team] ["Rk"] .values [0] 
Visitor_rank = standings[standings["Team"] == 
visitor_ team] ["RK"] .values [0] 


row["HomeTeamRanksHigher"] = int (home rank > visitor_rank) 
dataset.ix[index] = row 
接 下 来 , 用 cross_val_score 图 数 测试 结果 。 首 先 ， 从 数据 集中 抽取 所 需要 的 部 分 。 
XxX_homehigher = dataset[["HomeLastWin", "VisitorLastWin", 
"HomeTeamRanksHigher"]] .values 


然后 ， 创 建 DecisionTreeClassifier 分 类 器 ， 进 行 交 义 检 验 ， 求 得 正确 率 。 


clf = DecisionTreeClassifier(random state=14) 

scores = cross_val_score(clf, Xx homehigher, y_true, 
scoring='accuracy') 

print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


现在 的 正确 率 是 60.3% 比 我 们 之 前 的 结果 要 好 。 还 能 再 提高 吗 ? 


接 下 来 , 我 们 来 统计 两 支 球 队 上 场 比赛 的 情况 ,作为 为 一 个 特征 。 虽然 球 队 排名 有 助 于 预测 
( 排名 靠 前 的 胜算 更 大 ), 但 有 时 排名 靠 后 的 球 队 反 而 能 战胜 排名 靠 前 的 。 原 因 有 很 多 。 例如， 排 
名 靠 后 的 球 队 某 些 打 法 恰好 能 击 中 强 者 的 软肋 。 该 特征 的 创建 方法 与 前 一 个 特征 类 似 , 首先 创建 
字典 ,保存 上 场 比赛 的 获胜 队伍 ， 在 数据 框 中 建立 新 特征 。 代 码 如 下 : 











last_match winner = defaultdict (int) 
dataset["HomeTeamWonLast"] = 0 


然后 ,遍历 每 条 数据 ， 取 到 每 场 赛事 的 两 支 参 赛 队伍 。 


for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
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Visitor team = row["Visitor Team"] 


不 用 考虑 哪 支 球 队 是 主场 作战 ,我 们 想 看 一 下 这 两 支 球 队 在 上 一 场 比赛 中 到 底 谁 是 帮 家 。 因 
此 , 按照 英文 字母 表 顺 序 对 球 队 名 字 进 行 排序 , 确保 两 支 球 队 无 论 主客 场 作战 , 都 使 用 相同 的 键 。 








/ 








teams = tuple(sorted([home team, visitor team])) 


通过 查找 字典 ， 找 到 两 支 球 队 上 次 比赛 的 万 家 。 人 然后， 更 新 数据 框 中 这 条 数据 。 


row["HomeTeamWonLast"] = 1 if last_ match winner[teams] == 
row["Home Team"] else 0 
dataset.ix[index] = row 





最 后 ， 更 新 1ast_match_winnetr 字 典 ， 值 为 两 支 球 队 在 当前 场次 比赛 中 的 胜出 者 ， 两 支 球 
队 再 相逢 时 可 将 其 作为 参考 。 








winner = row["Home Team"] if row["HomeWin"] else row 
["Visitor Team"] 








Jast_match winner [teams] = winner 
下 面 ， 用 新 抽取 的 两 个 特征 创建 数据 集 。 观 察 不 同 特 征 组 合 的 分 类 效果 。 代 码 如 下 : 
XxX_lastwinner = dataset[["HomeTeamRanksHigher", "HomeTeam 
WonLast"]] .values 
clf = DecisionTreeClassifier(random state=14) 
scores = cross_val_ scorel(clf, Xx lastwinner, y_true, 


scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


正确 率 为 60.6%。 结 果 越 来 越 好 了 。 


最 后 我 们 来 看 一 下 ,决策 树 在 训练 数据 量 很 大 的 情况 下 ,能 否 得 到 有 效 的 分 类 模型 。 我 们 将 
会 为 决策 树 添加 球 队 ， 以 检测 它 是 否 能 整合 新 增 的 信息 。 











虽然 决策 树 能 够 处 理 特征 值 为 类 别 型 的 数据 , 但 scikit-learn 库 所 实现 的 决策 树 算法 要 求 
先 对 这 类 特征 进行 处 理 。 用 Labe1lEncoder 转 换 右 就 能 把 字符 串 类 型 的 球 队 名 转化 为 整 型 。 代 码 
如 下 : 

















from sklearn.preprocessing import LabelEncoder 
encoding = LabelEncoder () 


将 主场 球 队 名 称 转 化 为 整 型 : 





encoding.fit (dataset["Home Team"] .values) 


接 下 来 ,抽取 所 有 比赛 的 主客 场 球 队 的 球 队 名 (已 转化 为 数值 型 ) 并 将 其 组 合 ( 在 NumPy 
中 叫 作 “stacking”， 是 向 量 组 合 的 意思 ) 起 来 ， 形 成 一 个 和 矩阵。 代码 如 下 : 
































home_teams = encoding.transform(dataset["Home Team"] .values) 
visitor teams = encoding.transform(dataset["Visitor Team"] .values) 
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X_teams = np.vstack([home teams, visitor teams]).T 


决策 树 可 以 用 这 些 特征 值 进行 训练 ， 但 DecisionTreeclassifier 仍 把 它们 当 作 连续 型 特 
征 。 例 如 ,编号 从 0 到 16 的 17 支 球 队 ， 算法 会 认为 球 队 1 和 2 相似 ， 而 球 队 4 和 10 不 同 。 但 其 实 这 没 
意义 ， 对 于 两 支 球 队 而 言 ， 它 们 要 么 是 同一 支 球 队 ， 要 么 不 同 ， 没 有 中 间 状 态 ! 


为 了 消除 这 种 和 实际 情况 不 一 致 的 现象 ， 我 们 可 以 使 用 OneHotEncoder 转 换 器 把 这 些 整数 转 
换 为 二 进 制 数字 。 每 个 特征 用 一 个 二 进 制 数字 ?来 表示 。 例 如 ，LabelEncoder 为 芝加哥 公牛 队 分 配 
的 数值 是 7, 那 么 OneHotEncoder 为 它 分 配 的 二 进 制 数字 的 第 七 位 就 是 1 , 其 余 队伍 的 第 七 位 就 是 0。 
每 个 可 能 的 特征 值 都 这 样 处 理 ， 而 数据 集会 变 得 很 大 。 代 码 如 下 : 


from sklearn.preprocessing import OneHotEncoder 
onehot = OneHotEncoder() 


在 相同 的 数据 集 上 进行 预 处 理 和 训练 操作 ， 将 结果 保存 起 来 备用 。 
X_teams_expanded = onehot .fit_ transform(X teams) .todense() 
接着 ， 像 之 前 那样 在 新 数据 集 上 调用 决策 树 分 类 器 。 


clf = DecisionTreeClassifier(random state=14) 

scores = cross_val_scorel(clf, Xx teams_ expanded, y_true, 
scoring='accuracy') 

print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


正确 率 为 60%， 比 基准 值 要 高 ,但 是 没有 之 前 的 效果 好 。 原 因 可 能 在 于 特征 数 增加 后 ,决策 
树 处 理 不 当 。 鉴 于 此 , 我们 尝试 修改 算法 ,看 看 会 不 会 起 作用 。 数 据 挖掘 有 时 就 是 不 断 尝 试 新 算 
法 、 使 用 新 特征 这 样 一 个 过 程 。 
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一 棵 决策 树 可 以 学 到 很 复杂 的 规则 。 然而 , 很 可 能 会 导致 过 拟 合 问题 一 一 学 到 的 规则 只 适用 
于 训练 集 。 解 决 方法 之 一 就 是 调整 决策 树 算法 ,限制 它 所 学 到 的 规则 的 数量 。 例如， 把 决策 树 的 
深度 限制 在 三 层 , 只 让 它 学 习 从 全 局 角度 拆 分 数据 集 的 最 佳 规 则 , 不 让 它 学 习 适 用 面 很 罕 的 特定 
规则 , 这 些 规则 会 将 数据 集 进一步 拆 分 为 更 加 细致 的 群 组 。 使 用 这 种 折 中 方案 得 到 的 决策 树 泛 化 
能 力 强 ， 但 整体 表现 稍 弱 。 


为 了 弥补 上 述 方法 的 不 足 , 我 们 可 以 创建 多 棵 决策 树 ， 用 它们 分 别 进行 预测 ， 再 根据 少数 服 
从 多 数 的 原则 从 多 个 预测 结果 中 选择 最 终 预测 结果 。 这 正 是 随机 森林 的 工作 原理 。 


但 上 述 过 程 有 两 个 问题 ,一 是 创建 的 多 棵 决策 树 在 很 大 程度 上 是 相同 的 一 一 每 次 使 用 相同 的 



















































































GD 有 多 少 个 特征 ， 二 进 制 数字 就 有 多 少 位 。 一 一 译 者 注 
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输入 , 将 得 到 相同 的 输出 。 我 们 只 有 一 个 训练 集 ， 如 果 尝 试 创建 多 棵 决策 树 ， 它 们 的 输入 就 
相同 (因此 输出 也 相同 ) 。 解 决 方法 是 每 次 随机 从 数据 集中 选取 一 部 分 数据 用 作 训 练 集 。 这 
程 叫 作 装 袋 ( bagging ) 。 


第 二 个 问题 是 用 于 前 几 个 决策 节点 的 特征 非常 突出 。 即 使 我 们 随机 选取 部 分 数据 用 作 训 练 
时 ， 创 建 的 决策 树 相 似 性 仍旧 很 大 。 解 决 方法 是 ， 随 机 选取 部 分 特征 作为 决策 依据 。 
然后 ,使 用 随机 从 数据 集中 选取 的 数据 和 ( 几乎 是 ) 随机 选取 的 特征 ,创建 多 棵 决策 树 。 这 
就 是 随机 森林 ， 虽然 看 上 去 不 是 那么 直观 ,但 这 种 算法 在 很 多 数据 集 上 效果 很 好 。 


可 能 
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人 过 










































































3.4.1 决策 树 的 集成 效果 如 何 
随机 森林 算法 内 在 的 随机 性 让 人 感觉 算法 的 好 坏 全 靠 运气 。 然 而 , 通过 对 多 棵 几乎 是 随机 创 
建 的 决策 树 的 预测 结果 取 均 值 ， 就 能 降低 预测 结果 的 不 一 致 性 。 我 们 用 方差 来 表示 这 种 不 一 致 。 
方差 是 由 训练 集 的 变化 引起 的 。 决策 树 这 类 方差 大 的 算法 极 易 受到 训练 集 变化 的 影响 , 从 而 
产生 过 拟 合 问题 。 






































; 对 比 来 说 ， 偏 误 (bias ) 是 由 算法 中 的 假设 引起 的 ， 而 与 数据 集 没 有 关系 。 
比如 ， 算法 错误 地 假定 所 有 特征 呈正 态 分 布 ， 就 会 导致 较 高 的 误差 。 通 过 分 析 分 
类 器 的 数据 模型 和 实际 数据 集 的 匹配 情况 ， 就 能 降低 偏 误 问 题 的 负面 影响 。 





对 随机 森林 中 大 量 决 策 树 的 预测 结果 取 均 值 , 能 有 效 降低 方差 , 这 样 得 到 的 预测 模型 的 总 体 
正确 率 更 高 。 


一 般 而 言 ， 决 策 树 集成 做 出 了 如 下 假设 : 预测 过 程 的 误差 具有 随机 性 ， 且 因 分 类 带 而 异 。 
此 , 使 用 由 多 个 模型 得 到 的 预测 结果 的 均值 , 能 够 消除 随机 误差 的 影响 一 一 只 保留 正确 的 预测 结 
果 。 本 书 中 会 介绍 更 多 用 集成 方法 消除 误差 的 例子 。 






































3.4.2 ”随机 森林 算法 的 参数 


scikit-learn 库 中 的 RandomForestClassifier 就 是 对 随机 森林 算法 的 实现 ， 它 提供 了 
一 系列 参数 。 因 为 它 使 用 了 DecisionTreeClassifier 的 大 量 实例 ， 所 以 它 俩 的 很 多 参数 是 一 
致 的 ， 比 如 决策 标准 ( 基尼 不 纯度 /信息 增益 ) 、max_features 和 min_samples_split。 
当然 ， 集 成 过 程 还 引入 了 一 些 新 参数 。 


口 n_estimators: 用 来 指定 创建 决策 树 的 数量 。 该 值 越 高 , 所 花 时 间 越 长 , 正确 率 ( 可 能 
也 越 高 。 
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D oob_score: 如 果 设置 为 真 ， 测 试 时 将 不 使 用 训练 模型 时 用 过 的 数据 。 
口 n_jobs: 采用 并 行 计算 方法 训练 决策 树 时 所 用 到 的 内 核 数量 。 


scikit-learn 库 提供 了 用 于 并 行 计算 的 Joblipb 库 。n_jobs 指 定 所 用 的 内 核 数 。 默认 使 用 1 
个 内 核 一 一 如 果 CPU 是 多 核 的 ， 可 以 多 用 几 个 ,或 者 将 其 设置 为 -1， 开 动 全 部 马力 。 





























3.4.3 ”使 用 随机 森林 算法 


scikit-learn 库 实现 的 随机 森林 算法 使 用 估计 器 接口 ， 用 交叉 检验 方法 调用 它 即 可 ， 代 码 
跟 之 前 大 同 小 异 。 

from sklearn.ensemble import RandomForestClassifier 

clf = RandomForestClassifier(random state=14) 


scores = cross_ val_score(clf, Xx teams, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


只 是 靠 更 换 分 类 器 ， 正 确 率 就 提升 了 0.6%， 达 到 60.6%。 


随机 森林 使 用 不 同 的 特征 子 集 进行 学 习 , 应 该 比 普 通 的 决策 树 更 为 高 效 。 下 面 来 看 一 下 多 用 
儿 个 特征 效果 如 何 。 

XxX_all = np.hstack([X_home higher, X_teams]) 

clf = RandomForestClassifier(random state=14) 


scores = cross_ val_ score(clf, Xx all, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


正确 率 为 61.1% 一 一 又 有 所 提升 ! 可 以 使 用 cridsearchcv 类 搜索 最 佳 参 数 ， 代 码 如 下 : 




















parameter_space = { 


"max_features": [2, 10, '‘'auto'], 
"n_estimators": [100,], 
Toritetron™. [Sginir. ventropy) 
"min_ samples_leaf": [2, 4, 6], 


} 
clf = RandomForestClassifier(random state=14) 
grid = GridSearchCV (clf, parameter_space) 

grid.fit (x all, y_true) 
print ("Accuracy: {0:.1f}%".format (grid.best_score * 100)) 


这 次 正确 率 提升 较 大 ， 达 到 了 64.2%! 
输出 用 网 格 搜 索 找到 的 最 佳 模型 ， 查 看 都 使 用 了 哪些 参数 。 代 码 如 下 : 








print (grid.best_estimator_) 
下 面 的 代码 将 给 出 正确 率 最 高 的 模型 所 用 到 的 参数 。 


RandomForestClassifier (bootstrap=True, compute_importances=None, 
criterion='entropy', max_depth=None, max_features=2, 
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max_leaf_nodes=None, min density=None, min samples_leaf=6, 
min samples_split=2, n_ estimators=100, n_ jobs=1, 
oob_score=False, random state=14, verbose=0) 


3.4.4 创建 新 特征 


从 上 述 几 个 例子 中 ， 我 们 看 到 改变 特征 对 算法 的 表现 有 很 大 影响 。 经 过 小 规模 测试 发 现 ， 
仅仅 是 因为 选用 不 同 的 特征 ， 正 确 率 竟然 提升 了 10%。 








用 pandas 提 供 的 函数 创建 特征 。 代 码 如 下 : 
dataset["New Feature"] = feature_creator () 


feature_creator 国 数 返 回 数据 集中 每 条 数据 的 各 个 特征 值 。 常 用 数据 集 作 为 参数 。 



































dataset["New Feature"] = feature_creator (Qataset) 
最 直接 的 做 法 是 一 开始 为 新 特征 设置 默认 的 值 ， 比 如 0。 如 下 所 示 : 
dataset["My New Feature"] = 0 





接 下 来 ,遍历 数据 集 ， 计 算 所 需 特征 。 本 章 曾 多 次 用 下 面 这 种 形式 创建 新 特征 。 


for index, row in dataset.iterrows(): 
home_team = row[l"Home Team"] 
Visitor team = row["Visitor Team"] 
# Some calculation here to alter row 
dataset.ix[index] = row 


请 注意 , 上 面 这 种 遍历 方法 效率 不 高 。 如 果 你 要 用 的 话 , 请 一 次 性 处 理 所 有 特征 。 常用 的 “最 
佳 做 法 ”就 是 每 条 数据 最 好 只 处 理 一 次 。 


你 可 以 创建 下 述 特 征 并 看 一 下 效果 。 


口 球 队 上 次 打 比 赛 距 今 有 多 长 时 间 ? 短期 内 连续 作战 ， 容 易 导致 球员 疲劳 。 

口 两 支 球 队 过 去 五 场 比赛 结果 如 何 ? 这 两 个 数据 要 比 HomeLastwin 和 VisitorLastWin 更 
能 反映 球 队 的 真实 水 平 ( 抽取 特征 方法 类 似 ) 。 

口 球 队 是 不 是 跟 某 支 特定 球 队 打 比赛 时 发 挥 得 更 好 ? 例如 ， 球 队 在 某 个 体育 场 里 打 比赛 ， 
即使 是 客场 作战 也 能 发 挥 得 很 好 。 







































































如 果 抽 取 上 面 这 些 特 征 遇 到 困难 ， 请 参考 pandas 的 文档 http:/pandas.pydata.org/pandas- 
docs/stable/。 此 外 ， 还 可 以 尝试 从 Stack Overflow 等 社区 寻求 帮助 。 


更 极致 的 做 法 是 , 借助 球员 数据 来 分 析 每 个 队 的 实力 以 预测 输赢 。 其 实 ， 赌 徒 和 体育 博彩 机 
构 每 天 都 在 用 这 些 复杂 的 特征 预测 赛事 结果 来 件 利 。 
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3.5 ”小结 


本 童 使 用 scikit-learn 库 的 男 一 个 分 类 器 DecisionTreeclassifier， 并 介绍 了 如 何 用 
pandas 人 处理 数据 。 我 们 分 析 了 真实 的 NBA 赛 事 的 比赛 结果 数据 ,创建 新 特征 用 于 分 类 ， 并 在 这 个 
过 程 中 发 现 即 使 是 规整 、 干 净 的 数据 也 可 能 存在 一 些小 问题 。 


我 们 发 现 好 的 特征 对 提升 正确 率 很 有 帮助 , 还 使 用 了 一 种 集成 算法 一 一 随机 森林 , 进一步 提 
升 正确 率 。 

下 一 章 将 会 扩展 在 第 1 章 使 用 的 亲 和 性 分 析 算 法 ， 用 来 发 现 相似 的 电影 。 我 们 还 将 学 到 如 何 
用 算法 解决 排序 问题 ， 以 及 如 何 提升 数据 挖掘 算法 的 可 扩展 性 。 









































用 杀 和 性 分 析 方 法 推荐 电影 

















本 章 学 习 如 何 用 亲 和 性 分 析 方 法 找 出 在 什么 情况 下 两 个 对 象 经 常 一 起 出 现 。 通俗 来 讲 , 这 也 
叫 “购物 得 分 析 ”， 因 为 曾 有 人 用 它 找 出 哪些 商品 经 常 一 起 出 售 。 

第 3 章 关 注 的 对 象 为 球 队 ， 并 用 特征 描述 球 队 。 本 章 所 用 到 的 电影 评分 数据 有 所 不 同 ， 我 们 
所 关注 的 对 象 (电影 ) 埋 在 数据 中 。 本 章 数据 挖掘 任务 的 目标 是 找 出 对 象 同时 出 现 的 情况 ,也 就 
是 寻找 用 户 同时 喜欢 几 部 电影 的 情况 。 

本 章 主 要 涉及 以 下 几 个 概念 。 
口 亲 和 人 性 分 析 
口 用 Apriori 算 法 挖掘 关联 特征 
口 电影 推荐 
口 数据 稀 玖 问题 



































4.1 杀 和 性 分 析 


亲 和 性 分 析 用 来 找 出 两 个 对 象 共同 出 现 的 情况 。 而 前 儿 章 , 我 们 关注 的 是 同 种 对 象 之 间 的 相 
似 度 。 亲 和 性 分 析 所 用 的 数据 通常 为 类 似 于 交易 信息 的 数据 。 从 直观 上 来 看 , 这 些 数据 就 像 是 商 
店 的 交易 数据 一 一 从 中 能 看 出 哪些 商品 是 顾客 一 起 购买 的 。 


然而 ， 亲 和 性 分 析 方 法 的 应 用 场景 有 很 多 ， 比 如 : 


口 欺诈 检测 
口 顾客 区 分 
口 软件 优化 


pt 


口 产品 推荐 

亲 和 性 分 析 比 分 类 更 具 探 索性 , 因为 通常 我 们 无 法 拿 到 像 在 很 多 分 类 任务 中 所 用 的 那样 完整 
的 数据 集 。 例 如 ,在 电影 推荐 任务 中 ， 我们 拿 到 的 是 不 同 用 户 对 不 同 电影 的 评价 。 但是， 每 个 用 
户 不 可 能 评价 过 所 有 电影 , 这 就 给 亲 和 性 分 析 带 来 一 个 不 容 忽 视 的 大 难题 。 如 果 用 户 没有 评价 过 
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一 部 电影 ， 是 因为 他 们 不 喜欢 这 部 电影 ( 据 此 就 不 推荐 给 他 们 )， 还 是 因为 他 们 出 于 别 的 原因 还 
没有 评价 ? 

本 章 不 对 上 述 问 题 做 出 解答 , 但 是 我 们 要 思考 数据 集中 类 似 这 样 的 潜在 问题 该 怎么 解决 。 这 
思考 有 助 于 提升 推荐 算法 的 准确 性 。 
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4.1.1 亲 和 性 分 析 算 法 


我 们 在 第 1 章 介 绍 了 一 种 基础 的 亲 和 性 分 析 算 法 ,尝试 了 所 有 可 能 的 规则 组 合 ， 计 算 了 每 条 
规则 的 置信 和 度 和 支持 度 ， 并 根据 这 两 个 标准 进行 排序 ， 选 取 最 佳 规则 。 


然而 ， 这 个 方法 效率 不 高 。 好 在 第 1 章 所 使 用 的 数据 集中 ， 每 条 交易 数据 只 涉及 五 种 商品 。 
但 现实 并 非 如 此 , 即使 是 再 不 起 眼 的 小 卖 铺 出 售 的 商品 也 达 上 百 种 之 多 , 网 店 更 是 有 成 千 上 万 种 
商品 ( 甚至 几 百 万 种 ! )。 如 果 规 则 生成 方法 像 第 1 章 那样 过 于 简单 ， 计 算 这 些 规则 所 需要 的 时 间 
复杂 度 将 呈 指 数 级 增长 。 随 着 商品 数量 的 增加 ， 计算 所 有 规则 所 需 的 时 间 增 长 得 很 快 。 更 具体 地 
说 ， 所 有 可 能 的 规则 数量 是 2”-1。 数 据 集 有 5 个 特征 ， 可 能 的 规则 就 有 31 条 ; 有 10 个 特征 ， 可 能 
的 规则 就 有 1023 条 ; 仅仅 有 100 个 特征 ， 规 则 数 就 能 达到 30 位 数字 。 即 使 计算 能 力 大 幅 提 升 也 未 
必 能 赶 上 在 线 商品 的 增长 速度 。 因 此 ， 与 其 跟 计 算 机 过 不 去 ， 不 如 寻找 更 加 聪明 的 算法 。 


Apriori 算 法 可 以 说 是 经 典 的 亲 和 性 分 析 算 法 。 它 只 从 数据 集中 频繁 出 现 的 商品 中 选取 共同 出 
现 的 商品 组 成 频繁 项 集 (frequent itemset ) ， 避 免 了 上 述 复杂 度 呈 指数 级 增长 的 问题 。 一 旦 找到 
频繁 项 集 ， 生 成 关联 规则 就 很 容易 了 。 


Apriori 算 法 背后 的 原理 简洁 却 不 失 巧 妙 。 首 先 ， 确保 了 规则 在 数据 集中 有 足够 的 支持 度 。 
Apriori 算 法 的 一 个 重要 参数 就 是 最 小 支持 度 。 比 如 ， 要 生成 包含 商品 A、B 的 频繁 项 集 ( A,B ) ， 
要 求 支 持 度 至 少 为 30， 那 么 A 和 B 都 必须 至 少 在 数据 集中 出 现 30 次 。 更 大 的 频繁 项 集 也 要 遵守 该 
项 约定 ， 比 如 要 生成 频繁 项 集 ( A, B, C, D ) ， 那 么 子 集 (A, B, C) 必 须 是 频繁 项 集 ( 当然 也 自己 也 
要 满足 最 小 支持 度 标 准 ) 。 

生成 频繁 项 集 后 , 将 不 再 考虑 其 他 可 能 的 却 不 够 频繁 的 项 集 ( 这 样 的 集合 有 很 多 ) ， 从 而 大 
大 减少 测试 新 规则 所 需 的 时 间 。 


其 他 亲 和 性 分 析 算 法 有 Eclat 和 频繁 项 集 挖 气 算 法 (FP-growth ) 。 从 数据 挖掘 角度 看 ， 这 些 
算法 比 起 基础 的 Apriori 算 法 有 很 多 改进 ， 性 能 也 有 进一步 提升 。 接 下 来 ， 先 来 看 一 下 最 基础 的 
Apriori 算 法 。 





























































































































4.1.2 选择 参数 
挖掘 亲 和 性 分 析 所 用 的 关联 规则 之 前 , 我 们 先 用 Apriori 算 法 生成 频繁 项 集 。 接 着 ， 通 过 检测 
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频繁 项 集中 前 提 和 结论 的 组 合 ， 生 成 关联 规则 ( 例如 ， 如 果 用 户 喜 欢 电影 ,那么 他 很 可 能 喜欢 
电影 Y ) 。 

第 一 个 阶段 , 需要 为 Apriori 算 法 指定 一 个 项 集 要 成 为 频繁 项 集 所 需 的 最 小 支持 度 。 任何 小 于 
最 小 支持 度 的 项 集 将 不 再 考虑 。 如 有 果 最 小 支持 度 值 过 小 ，Apriori 算 法 要 检测 大 量 的 项 集 , 会 拖 慢 
的 运行 速度 ; 最 小 支持 度 值 过 大 的 话 ， 则 只 有 很 少 的 频繁 项 集 。 

找 出 频繁 项 集 后 ,在 第 二 个 阶段 ,根据 置信 度 选 取 关 联 规则 。 可 以 设 定 最 小 置信 和 度 ， 返回 一 
部 分 规则 ， 或 者 返回 所 有 规则 ， 让 用 户 自 己 选 。 

本 章 , 我 们 设 定 最 小 置信 度 ， 只 返回 高 于 它 的 规则 。 置 信 度 过 低 将 会 导致 规则 支持 度 高 ， 正 
确 率 低 ; 置信 度 过 高 ， 导 致 正确 率 高 ， 但 是 返回 的 规则 少 。 












































4.2 ”电影 推荐 问题 


产品 推荐 技术 是 门 大 生意 。 网 店 经 常用 它 向 潜在 用 户 推荐 他 们 可 能 购买 的 产品 。 好 的 推荐 算 
法 能 带 来 更 高 的 销售 业绩 。 每 年 有 儿 百 万 乃至 几 千 万 用 户 进 行 网 购 ， 向 他 们 推荐 更 多 的 商品 ,， 洪 
在 收益 着 实 可 观 。 


产品 推荐 问题 被 人 们 研究 了 多 年 , 但 它 一 直 不 温 不 火 ， 直 到 2007 年 到 2009 年 间 ，Netflix 公 司 
推出 数据 建 模 大 赛 ， 并 设立 Netflix Prize 奖 项 之 后 ， 才 得 到 迅猛 发 展 。 该 竞赛 意 在 寻找 比 Netflix 
公司 所 使 用 的 预测 用 户 为 电影 打分 的 系统 更 准确 的 解决 方案 。 最 后 获奖 队伍 以 比 现 有 系统 高 10 
个 百分点 的 优势 胜出 。 虽 然 这 个 改进 看 起 来 不 是 很 大 , 但 是 Netflix 公 司 却 能 借助 它 实现 更 精准 的 
电影 推荐 服务 ， 从 而 多 赚 上 百 万 美元 。 




























































































4.2.1 获取 数据 集 


自打 Netflix Prize 奖 项 设立 以 来 ,美国 明尼苏达 大 学 的 Grouplens 人 研究 团队 公开 了 一 系列 用 于 
测试 推荐 算法 的 数据 集 。 其 中 ， 就 包括 几 个 大 小 不 同 的 电影 评分 数据 集 ， 分别 有 10 万 、100 万 和 
1000 万 条 电影 评分 数据 。 


数据 集 下 载 地 址 为 http://grouplens.org/datasets/movielens/。 本 章 将 使 用 包含 100 万 条 数据 的 
MovieLens 数 据 集 。 下 载 数 据 集 ， 解 压 到 你 的 Data 文 件 来 。 启 动 IPython Notebook 笔 记 本 ,输入 以 
下 代码 。 

import os 

import pandas as pd 

data_folder = os.path.join(os.path.expanduser ("~"), "Data", 


"ml-100k") 
ratings_filename = os.path.join(data_ folder, "u.data") 


确保 ratings_filename 指 向 解压 后 得 到 的 文件 夹 中 的 u .qata 文 件 。 
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4.2.2 用 pandas 加 载 数据 

MovieLens 数 据 集 非 常规 整 , 但 是 有 几 点 跟 pandas .read_csv 方 法 的 默认 设置 有 出 入 , 所 以 
要 调整 参数 设置 。 第 一 个 问题 是 数据 集 每 行 的 几 个 数据 之 间 用 制 表 符 而 不 是 逗号 分 隔 。 其 次 , 没 
有 表 头 ， 这 表示 数据 集 的 第 一 行 就 是 数据 部 分 ， 我 们 需要 手动 为 各 列 添 加 名 称 。 

加 载 数据 集 时 , 把 分 隔 符 设 置 为 制 表 符 , 告 诉 pandas 不 要 把 第 一 行 作 为 表 头 (heaqder=None )， 
设置 好 各 列 的 名 称 。 代 码 如 下 : 


all_ratings = pd.read csv(ratings_filename, delimiter="\t", 
header=None, names = ["UserID", "MovieID", "Rating", "Datetime"]) 


虽然 本 章 用 不 到 ， 还 是 稍微 提 一 下 ， 你 可 以 用 下 面 的 代码 解析 时 间 惟 数据 。 4 


all_ratings["Datetime"] = pd.to datetime(all_ ratings['Datetime'], 
Un ts 


运行 下 面 的 代码 ， 看 一 下 前 五 条 记录 。 









































all_ratings[:5] 





输出 结果 如 下 。 

UserlD MovielD Rating Datetime 
0 196 242 3 1997-12-04 15:55:49 
1 186 302 3 1998-04-04 19:22:22 
2 22 377 1 1997-11-07 07:18:36 
3 244 51 2 1997-11-27 05:02:03 
4 166 346 1 1998-02-02 05:33:16 


4.2.3” 稀 玻 数 据 格式 

这 是 一 个 稀 琉 数据 集 , 我 们 可 以 将 每 一 行 想象 成 巨大 特征 矩阵 的 一 个 格子 , 前 几 章 用 到 过 这 
种 矩阵 。 在 这 个 矩阵 中 ,每 一 行 表示 一 个 用 户 ， 列 为 一 部 电影 。 第 一 列 为 每 一 个 用 户 给 第 
部 电影 打 的 分 数 ， 第 二 列 为 每 一 个 用 户 给 第 二 部 电影 打 的 分 数 ， 以 此 类 推 。 

数据 集中 有 1000 名 用 户 和 1700 部 电影 ,这 就 意味 着 整个 矩阵 很 大 。 将 矩阵 读 到 内 存 中 及 在 它 
基础 上 进行 计算 可 能 存在 难度 。 然而 , 这 个 矩阵 的 很 多 格子 都 是 空 的 , 也 就 是 对 大 部 分 用 户 来 说 ， 
他 们 只 给 少数 几 部 电影 打 过 分 。 比 如 用 户 #13 没 有 为 电影 #675 打 过 分 大 部 分 用 户 没 有 为 大 部 分 
电影 打 过 分 。 

用 上 述 图 表 中 的 格式 也 能 表示 和 矩阵 ， 且 更 为 紧 竣 。 序 号 为 0 的 那 一 行 表 示 ， 用 户 #196 在 1997 
年 12 月 4 日 为 电影 过 42 打 了 3 分 ( 满分 是 5 分 ) 。 
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任何 没有 出 现在 数据 集中 的 用 户 和 电影 组 合 表 示 它 们 实际 上 是 不 存在 的 。 这 比 起 在 内 存 中 保 
存 大 量 的 0， 节 省 了 很 多 空间 。 这 种 格式 叫 作 稀 玖 算 阵 ( sparse matrix ) 。 根 据 经 验 来 说 ， 如 果 数 
据 集中 60% 或 以 上 的 数据 为 0， 就 应 该 考虑 使 用 稀疏 矩阵， 从 而 节省 不 少 空间 。 


在 对 稀 玻 矩阵 进行 计算 时 , 我 们 关注 的 通常 不 是 那些 不 存在 的 数据 , 不 会 去 比较 众多 的 0 值 ， 
相反 我 们 关注 的 是 现 有 数据 ， 并 对 它们 进行 比较 。 








4.3 Apriori 算法 的 实现 


本 章 数 据 挖掘 的 目标 是 生成 如 下 形式 的 规则 : 如 果 用 户 喜欢 某 些 电影 ， 那 么 他 们 也 会 喜欢 这 
部 电影 。 作 为 对 上 述 规则 的 扩展 ， 我 们 还 将 讨论 喜欢 某 几 部 电影 的 用 户 ， 是 否 喜欢 另 一 部 电影 。 

要 解决 以 上 问题 ， 首先 要 确定 用 户 是 不 是 喜欢 某 一 部 电影 。 为 此 创建 新 特征 Favorable, 若 
用 户 喜 欢 该 电影 ， 值 为 True。 


























all_ratings["Favorable"] = all_ratings["Rating"] > 3 
我 们 在 数据 集中 看 一 下 这 个 新 特征 。 


all_ratings[10:15] 








UserlD MovielD Rating Datetime Favorable 
10 62 237 2 1997-11-12 22:07:14 False 
11 286 1014 5 1997-11-17 15:38:45 True 
12 200 222 5 1997-10-05 09:05:40 True 
13 210 40 3 1998-03-27 21:59:54 False 
14 224 29 3 1998-02-21 23:40:57 False 


从 数据 集中 选取 一 部 分 数据 用 作 训 练 集 ， 这 能 有 效 减少 搜索 空间 ， 提 升 Apriori 算 法 的 速度 。 
我 们 取 前 200 和 名 用 户 的 打分 数据 。 


ratings = all1_ratings [all1_ratings['UserID'].isin(zange(200) )] 


接 下 来 ， 新 建 一 个 数据 集 ， 只 包括 用 户 喜 欢 某 部 电影 的 数据 行 。 





favorable_ratings = ratings[ratings["Favorable"]] 


在 生成 项 集 时 , 需要 搜索 用 户 喜 欢 的 电影 。 因 此 ， 接 下 来 ,我 们 需要 知道 每 个 用 户 各 喜欢 哪 
些 电影 ， 按 照 User ID 进 行 分 组 ， 并 遍历 每 个 用 户 看 过 的 每 一 部 电影 。 











favorable_ reviews_by_users = dict((k, frozenset (v.values)) 
for k, Vv in favorable ratings 
groupby ("UserID") ["MovieID"]) 


上 面 的 代码 把 v .values 存 储 为 frozenset ， 便 于 快速 判断 用 户 是 否 为 某 部 电影 打 过 分 。 对 
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于 这 种 操作 ， 集 合 比 列表 速度 快 ， 在 后 面 代码 中 还 会 用 到 。 
最 后 ， 创 建 一 个 数据 框 ， 以 便 了 解 每 部 电影 的 影迷 数量 。 








num_favorable_py movie = ratings[["MovieID", "Favorable"]]. 
groupby ("MovieID").sum!() 


用 以 下 代码 查看 最 受 欢 迎 的 五 部 电影 。 


num_ favorable by_movie.sort ("Favorable", ascending=False)[:5] 








输出 结果 如 下 : 
MovielD Favorable 
50 100 
100 89 
258 83 
181 79 
174 74 


4.3.1 Apriori 算法 


Apriori 算 法 是 亲 和 性 分 析 的 一 部 分 ,专门 用 于 查找 数据 集中 的 频繁 项 集 。 基 本 流程 是 从 前 一 
步 找到 的 频繁 项 集中 找到 新 的 备 选 集合 , 接着 检测 备 选 集合 的 频繁 程度 是 否 够 高 , 然后 算法 像 下 
面 这 样 进行 先 代 。 

(D 把 各 项 目 放 到 只 包含 自己 的 项 集中 , 生成 最 初 的 频繁 项 集 。 只 使 用 达到 最 小 支持 度 的 项 目 。 

(2) 查找 现 有 频繁 项 集 的 超 集 ， 发 现 新 的 频繁 项 集 ， 并 用 其 生成 新 的 备 选项 集 。 

G) 测试 新 生成 的 备 选 项 集 的 频繁 程度 ， 如 果 不 够 频繁 ， 则 舍弃 。 如 果 没有 新 的 频繁 项 集 ， 
就 跳 到 最 后 一 步 。 

(4) 存储 新 发 现 的 频繁 项 集 ， 跳 到 步骤 CD)。 

(5) 返回 发 现 的 所 有 频繁 项 集 。 


整个 过 程 表 示 如 下 。 
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步骤 1: 
生成 初始 频繁 项 集 


消 放 2 
用 现 有 频繁 项 集 的 超 集 生成 
选项 





耽 
这 旺 时 
淮 


步骤 3， 
测试 备 选项 集 是 否 频繁 。 
如 果 不 频繁 ， 则 舍弃 


4 


步骤 4: 
步骤 3 中 是 否 发 现 新 的 频繁 
项 集 ? 


步骤 5: 
发 现 的 所 有 频繁 项 集 














4.3.2 ”实现 
























Apriori 算 法 第 一 次 迭代 时 ， 新 发 现 的 项 集 长 度 为 2， 它 们 是 步 又 (1D) 中 创建 的 项 集 的 超 集 。 第 
二 次 迭代 ( 经 过 步 又 (4) ) 中 , 新 发 现 的 项 集 长 度 为 3。 这 有 助 于 我 们 快速 识别 步骤 (2) 所 需 的 项 集 。 


我 们 把 发 现 的 频繁 项 集 保存 到 以 项 集 长 度 为 键 的 字典 中 , 便于 根据 长 度 查 找 , 这 样 就 可 以 找 











Wr 





到 最 新 发 现 的 频繁 项 集 。 下 面 的 代码 初始 化 一 个 字典 。 


frequent_itemsets = {} 














我 们 还 需要 确定 项 集 要 成 为 频繁 项 集 所 需 的 最 小 支持 度 。 这 个 值 需要 根据 数据 集 的 具体 情况 
来 设 定 , 可 自行 尝试 其 他 值 ， 建 议 每 次 只 改动 10 个 百分点 ， 即使 这 样 你 可 能 也 会 发 现 算法 运行 时 


间 变 动 很 大 ! 下 面 ,设置 最 小 支持 度 。 





min_ support = 50 





























电影 生成 只 包含 它 自己 的 项 集 , 检测 它 是 否 够 





我 们 先 来 实现 Apriori 算 法 的 第 一 步 , 为 每 一 部 





频繁 。 电影 编号 使 用 frozenset, 后 面 要 用 到 集合 操作 。 此 外 ,它们 也 可 以 用 作 字 典 的 键 ( 普通 


集合 不 可 以 ) 。 代 码 如 下 : 
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frequent_itemsets[1] = dict((frozenset( (movie_idq,) )， 
row[l"Favorable"]) 
for movie_id, row in num favorable_ 
by_movie.iterrows() 
if row[l"Favorable"] > min_ support) 


接着 ， 用 一 个 函数 来 实现 步 又 2) 和 (3)， 它 接收 新 发 现 的 频繁 项 集 ， 创 建 超 集 ， 检 测 频繁 程 
度 。 下 面 为 函数 声明 及 字典 初始 化 代码 。 


from collections import defaultdict 
def find_ frequent_itemsets (favorable reviews_ by _ users, k_1 itemsets, 
min_support): 

counts = defaultdict (int) 


经 验 告诉 我 们 , 要 尽量 减少 遍历 数据 的 次 数 ， 所 以 每 次 调用 函数 时 ,再 遍历 数据 。 这 样 做 效 
果 不 是 很 明显 ( 因为 数据 集 相对 较 小 ) ,但 是 数据 集 更 大 的 情况 下 ， 就 很 有 必要 。 我们 来 遂 历 所 
有 用 户 和 他 们 的 打分 数据 。 


for user, reviews in favorable reviews_by_users.items(): 


接着 , 遍历 前 面 找 出 的 项 集 ， 判断 它们 是 否 是 当前 评分 项 集 的 子 集 。 如 果 是 ,表明 用 户 已 经 
为 子 集中 的 电影 打 过 分 。 代 码 如 下 : 


for itemset in k_ 1 itemsets: 
if itemset.issubset (reviews): 


接 下 来 ,遍历 用 户 打 过 分 却 没 有 出 现在 项 集 里 的 电影 ， 用 它 生成 超 集 ， 更 新 该 项 集 的 计数 。 
代码 如 下 : 



























































for other_ reviewed movie in reviews - itemset: 
current_superset = itemset | frozenset((other_ 
reviewed_ movie,)) 
counts[current_superset] += 1 


函数 最 后 检测 达到 支持 度 要 求 的 项 集 ， 看 它 的 频繁 程度 够 不 够 ,并 返回 其 中 的 频繁 项 集 。 


return dict([(itemset, frequency) for itemset, frequency in 
counts.items() if frequency >= min_support]) 


创建 循环 ， 运 行 Apriori 算 法 ， 存 储 算法 运行 过 程 中 发 现 的 新 项 集 。 循 环 体 中 ，k 表 示 即 将 发 
现 的 频繁 项 集 的 长 度 ， 用 键 £-1 可 以 从 frequent_itemsets 字 典 中 获取 刚 发 现 的 频繁 项 集 。 新 
发 现 的 频繁 项 集 以 长 度 为 键 ， 将 其 保存 到 字典 中 。 代 码 如 下 : 


for k in range(2, 20): 
cur_frequent_itemsets = 
fingd_ frequent_itemsets (favorable reviews_by_users, 
frequent_itemsets[k-1], 
min_support) 
frequent_itemsets[k] = cur_frequent_itemsets 


人 
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如 果 在 上 述 循环 中 没 能 找到 任何 新 的 频繁 项 集 ， 就 跳出 循环 ( 输出 信息 ,告知 我 们 没 能 找到 
长 度 为 k 的 频 索 项 集 ) 。 


if len(cur_frequent_itemsets) == 0: 
print ("Diqd not fingd any frequent itemsets of length {}". 
format (k)) 
sys.stdout.flush() 
break 


用 sys .stdout.flush() 方 法 ,确保 代码 还 在 运行 时 ， 把 缓冲 区 内 容 输 出 

到 终端 。 有 时 ,在 位 于 笔记 本 文件 特定 格子 的 大 型 循环 中 ,代码 结束 运行 前 不 会 

> 输出 ， 用 flush 方 法 可 以 保证 及 时 输出 。 但 是 ,该 方法 不 宜 过 多 使 用 一 一 flush 
操作 (输出 也 是 ) 所 带 来 的 计算 开销 会 拖 慢 程序 的 运行 速度 。 


如 果 确 实 找到 了 频繁 项 集 , 我 们 也 让 程序 输出 信息 ,告知 我 们 它 会 再 次 运行 。 因 为 算法 运行 
时 间 很 长 ， 所 以 每 隔 一 段 时 间 输 出 一 下 状态 是 很 有 必要 的 ! 代码 如 下 : 





else: 
print ("I found {} frequent itemsets of length 
{}".format (len(cur_frequent_itemsets), k)) 
sys.stdout.flush() 


最 后 ， 循 环 结束 ， 我 们 对 只 有 一 个 元 素 的 项 集 不 再 感 兴趣 一 一 它们 对 生成 关联 规则 没有 用 
处 一 一 生成 关联 规则 至 少 需要 两 个 项 目 。 删 除 长 度 为 1 的 项 集 。 代 码 如 下 : 





























del frequent_itemsets[1] 


上 面 这 些 代 码 要 好 几 分 钟 才能 运行 完 , 老 机 器 需要 的 时 间 更 长 。 如 果 你 在 本 地 运行 代码 有 问 
题 ， 可 以 考虑 使 用 云 主机 提升 速度 ， 具 体 细节 请 见 附录 。 


上 述 代码 返回 了 不 同 长 度 的 1718 个 频繁 项 集 。 你 也 许 会 发 现 随 着 项 集 长 度 的 增加 , 项 集 数 随 
着 可 用 规则 的 增加 而 增长 一 段 时 间 后 才 开 始 变 少 , 减少 是 因为 项 集 达 不 到 最 低 支 持 度 要 求 。 项 集 
的 减少 是 Apriori 算 法 的 优点 之 一 。 如 果 我 们 搜索 所 有 可 能 的 项 集 ( 不 只 是 频繁 项 集 的 超 集 ) ， 判 
断 多 余 项 集 的 频繁 程度 需要 成 二 上 万 次 查询 。 


























4.4 抽取 关联 规则 


Apriori 算 法 结束 后 ， 我 们 得 到 了 一 系列 频繁 项 集 ， 这 还 不 算是 真正 意义 上 的 关联 规则 , 但 是 
很 接近 了 。 频 繁 项 集 是 一 组 达到 最 小 支持 度 的 项 目 ， 而 关联 规则 由 前 提 和 绪论 组 成 。 


我 们 可 以 从 频繁 项 集中 抽取 出 关联 规则 , 把 其 中 几 部 电影 作为 前 提 , 男 一 部 电影 作为 结论 组 
成 如 下 形式 的 规则 : 如 果 用 户 喜欢 前 提 中 的 所 有 电影 那么 他 们 也 会 喜欢 结论 中 的 电影 。 
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每 一 个 项 集 都 可 用 这 种 方式 生成 一 条 规则 。 
下 面 的 代码 通过 遍历 不 同 长 度 的 频繁 项 集 ， 为 每 个 项 集 生成 规则 。 

















candidate_rules = [] 


for itemset_ length, itemset_ counts in frequent_itemsets.items(): 
for itemset in itemset_counts.keys(): 














然后 , 遍历 项 集中 的 每 一 部 电影 ， 把 它 作 为 结论 。 项 集中 的 其 他 电影 作为 前 提 ， 用 前 提 和 结 
论 组 成 备 选 规则 。 





for conclusion in itemset: 
premise = itemset - set((conclusion,)) 
candidate_rules.append( (premise, conclusion)) 


这 样 就 能 得 到 大 量 备 选 规则 。 通 过 以 下 代码 查看 前 五 条 规则 。 


print (candidate rules[:5]) 




















偷 出 结果 如 下 : 
[(frozenset ({79}), 258), (frozenset ({258}), 79), (frozenset ({50}), 
64), (frozenset ({64}), 50), (frozenset ({127}), 181)] 
邮 、 es > 到 hy 
在 上 述 这 些 规则 中 , 第 一 部 分 ( frozenset ) 是 作为 规则 前 提 的 电影 编号 , 后 面 的 数字 表示 
电 作为 结论 的 电影 编号 。 第 一 组 数据 表示 如 果 用 户 喜欢 电影 79， 他 很 可 能 喜欢 电影 258。 





接 下 来 ， 计 算 每 条 规则 的 置信 度 ， 计 算 方 法 跟 第 1 章 类 似 ， 只 不 过 要 根据 这 里 新 的 数据 格式 
做 些 改动 。 





我 们 需要 先 创建 两 个 字典 ， 用 来 存储 规则 应 验 ( 正 例 ) 和 规则 不 适用 (反例 ) 的 次 数 。 代 码 
如 下 : 


correct_counts = defaultdict (int) 
incorrect_counts = defaultdict (int) 


遍历 所 有 用 户 及 其 喜欢 的 电影 数据 ， 在 这 个 过 程 中 遍历 每 条 关联 规则 。 
for user, reviews in favorable reviews_ by_users.items(): 


for candidate rule in candidate rules: 
premise, conclusion = candidate _ rule 


测试 每 条 规则 的 前 提 对 用 户 是 否 适用 。 换 句 话说 , 用 户 是 否 襄 欢 前 提 中 的 所 有 电影 。 代码 如 下 : 





if premise.issubset (reviews): 


如 果 前 提 符 合 ， 看 一 下 用 户 是 否 喜 欢 结论 中 的 电影 。 如 果 是 的 话 ， 规 则 适用 , 反之, 规则 不 
适用 。 


if premise.issubset (reviews): 








if conclusion in reviews: 
correct_counts[candidate_rule] += 1 
else: 
incorrect_counts[candidate_rule] += 1 


用 规则 应 验 的 次 数 除 以 前 提 条 件 出 现 的 总 次 数 ， 计 算 每 条 规则 的 置信 度 。 


rule_confidence = {candidate rule: correct_counts[candidate_rulel] 
/ float(correct_counts[candidate _ rule] + 
incorrect_counts[candidate_rule]) 
for candidate rule in candidate rules} 


对 置信 和 度 字典 进行 排序 后 ， 输 出 置信 和 度 最 高 的 前 五 条 规则 。 








from operator import itemgetter 
sorted_confidence = sortedl(rule_ confidence.items(), 
key=itemgetter(1), reverse=True) 

for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
(premise, conclusion) = sorted confidence[index] [0] 
print ("Rule: If a person recommends {0} they will also 

recommend {1}".format (premise, conclusion)) 


print(" - Confidence: 
{0:.3f}".format (rule_confidencel[l (premise, conclusion)])) 
print ( mn ) 
结果 如 下 : 
Rule #1 


Rule: If a person recommends frozenset ({64, 56, 98, 50, 7}) they will 
also recommend 174 
- Confidence: 1.000 


Rule #2 
Rule: If a person recommends frozenset ({98, 100, 172, 79, 50, 56}) 
they will also recommend 7 

- Confidence: 1.000 


Rule #3 
Rule: If a person recommends frozenset ({98, 172, 181, 174, 7}) they 
will also recommengd 50 

- Confidence: 1.000 


Rule #4 
Rule: If a person recommends frozenset ({64, 98, 100, 7, 172, 50}) they 
will also recommend 174 

- Confidence: 1.000 


Rule #5 
Rule: If a person recommends frozenset ({64, 1, 7, 172, 79, 50}) they 
will also recommend 181 

- Confidence: 1.000 
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输出 结果 中 只 显示 电影 编号 , 而 没有 显示 电影 名 字 , 很 不 友好 。 我 们 下 载 的 数据 集中 的 uitems 
文件 里 存储 了 电影 名 称 和 编号 ( 还 有 体裁 等 信息 ) 
用 pandas 从 uitems 文 件 加 载 电 影 名 称 信息 。 关 于 该 文件 和 类 别 的 更 多 信息 请 见 数据 集中 的 


README 文 件 。u.items 文 件 为 CSV 格 式 , 但 是 用 竖 线 分 隔 数 据 。 读 取 时 需要 指定 分 隔 符 , 设置 表 
头 和 编码 格式 。 每 一 列 的 名 称 是 从 README 文 件 中 找到 的 。 


movie name_ filename = os.path.join(data folder, "u.item") 
movie name data = pd.read csv (movie name filename, delimiter="|", 





























header=None, encoding = "mac-roman") 
movie_ name data.columns = ["MovieID", "Title", "Release Date", 
"Video Release", "IMDB", "<UNK>", "Action", "Adventure", 
"Animation", "Children's", "Comedy", "Crime", "Documentary", 
"Drama", "Fantasy", "Film-Noir", 
"Horror", "Musical", "Mystery", "Romance", "Sci-Fi", "Thriller", 
"War", "Western"] 


然 电影 名 称 对 于 理解 数据 很 重要 , 我 们 就 来 创建 一 个 用 电影 编号 获取 名 称 的 函数 ,以免 去 
Re 函数 声明 如 下 : 


def get_movie_name (movie id): 
在 数据 框 movie_name_qata 中 查找 电影 编号 ， 找 到 后 ， 只 返回 电影 名 称 列 的 数据 。 


title object = movie name datalmovie name_ datal[l"MovieID"] == 
moOvEer Ld] EEitLe.] 


我 们 用 title_object 的 values 属 性 获取 电影 名 称 (不 是 存储 在 title_object 中 的 
series 对 象 ) 。 我 们 只 对 第 一 个 值 感 兴趣 当然 每 个 电影 编号 只 对 应 一 个 名 称 ! 


title = title_ object.values[0] 


函数 最 后 返回 电影 名 称 。 


return title 


调整 之 前 的 代码 ， 这 样 就 能 在 输出 的 规则 中 显示 电影 名 称 。 请 在 IPython Notebook 笔 记 本 文 
件 的 新 格子 里 输入 以 下 代码 。 


for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
(premise, conclusion) = sorted confidence[index] [0] 
premise names = ", ".join(get movie name (idx) for idx 
in premise) 
conclusion name = get_movie name (conclusion) 
print ("Rule: If a person recommends {0} they will 
also recommend {1}".format (premise names, conclusion name)) 
print(" - Confidence: {0:.3f}".format (confidencel[l (premise, 
conclusion)])) 
Dririt( Tn 























结果 清楚 多 了 ( 还 有 些小 问题 ， 和 暂时 先 忽略 ) 。 


Rule #1 
Rule: If a person recommends Shawshank Redemption, The (1994), Pulp 
Fiction (1994), Silence of the Lambs, The (1991), Star Wars (1977), 
Twelve Monkeys (1995) they will also recommend Raiders of the Lost Ark 
(L981) 

- Confidence: 1.000 


Rule #2 
Rule: If a person recommends Silence of the Lambs, The (1991), Fargo 
(1996), Empire Strikes Back, The (1980), Fugitive, The (1993), Star 
Wars (1977), Pulp Fiction (1994) they will also recommend Twelve 
Monkeys (1995) 

- Confidence: 1.000 


Rule #3 
Rule: If a person recommends Silence of the Lambs, The (1991), Empire 
Strikes Back, The (1980), Return of the Jedi (1983), Raigders of the 
Lost Ark (1981), Twelve Monkeys (1995) they will also recommend Star 
Wars (1977) 

- Confidence: 1.000 


Rule #4 
Rule: If a person recommends Shawshank Redemption, The (1994), Silence 
of the Lambs, The (1991), Fargo (1996), Twelve Monkeys (1995), Empire 
Strikes Back, The (1980), Star Wars (1977) they will also recommend 
Raiders of the Lost Ark (1981) 

- Confidence: 1.000 


Rule #5 
Rule: If a person recommends Shawshank Redemption, The (1994), Toy 
Story (1995), Twelve Monkeys (1995), Empire Strikes Back, The (1980) ， 
Fugitive, The (1993), Star Wars (1977) they will also recommend Return 
of the Jedi (1983) 

- Confidence: 1.000 


评估 


广义 上 讲 ,我们 可 以 拿 评估 分 类 算法 的 那 一 套 来 用 。 训 练 前 ， 留 出 一 部 分 数据 用 于 测试 , 评 








佑 发 现 的 规则 在 测试 集 上 的 表现 。 
如 果 这 样 做 的 话 ， 我 们 就 需要 计算 每 条 规则 在 测试 集中 的 置信 度 。 
这 里 我 们 不 打算 用 正式 的 评价 指标 ， 只 是 简单 看 一 下 每 条 规则 的 表现 ， 寻 找 好 的 规则 。 











首先 ,抽取 所 有 没有 用 于 训练 的 数据 作为 测试 集 。 训 练 集 用 前 200 名 用 户 的 打分 数据 ， 测 试 














如 下 : 


集 就 用 剩 下 的 数据 。 就 训练 集 来 说 ,我 们 会 为 该 数据 集中 的 每 一 位 用 户 获 取 最 喜欢 的 电影 。 代 码 
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test_dataset = 

all_ratings[~all_ratings['UserID'] .isin(range(200))] 

test_favorable = test_dataset [test_dataset["Favorable"]] 

test_favorable by _ users = dict((k, frozenset(v.values)) for k, v 
in test_favorable.groupby ("UserID") ["MovieID"]) 


接着 , 计算 规则 应 验 的 数量 , 方法 跟 之 前 相同 。 唯 一 的 不 同 就 是 这 次 使 用 的 是 测试 数据 而 不 
是 训练 数据 。 代 码 如 下 : 


correct_counts = defaultdict (int) 
incorrect_counts = defaultdict (int) 
for user, reviews in test_favorable by_users.items(): 
for candidate _ rule in candidate rules: 
premise, conclusion = candidate rule 
if premise.issubset (reviews): 
if conclusion in reviews: 
Correct_counts[candidate _ rule] += 1 
else: 
incorrect_counts[candidate rule] += 1 


接 下 来 ,计算 所 有 应 验 规则 的 置信 度 。 


test_confidence = {candidate_rule: correct_counts[candidate_rule] 
/ float (correct_counts [candidqate_rule]l + incorrect_counts 
[candidate_rule]) 
for candidate_ rule in rule_ confidence} 


最 后 ， 输 出 用 电影 名 称 而 不 是 电影 编号 表示 的 最 佳 关 联 规则 。 















































for index in range(5): 
print ("Rule #{0}".format (index + 1)) 


(premise, conclusion) = sorted confidence[index] [0] 
premise names = ", ".joinl(get_ movie name (idx) for idx in 
premise) 


conclusion name = get_movie name (conclusion) 
print ("Rule: If a person recommends {0} they will also 
recommend {1}".format (premise names, conclusion name)) 





print(" - Train Confidence: 
{0:.3f}".format (rule_confidence.get ((premise, conclusion), 
= 
print(" - Test Confidence: 
{0:.3f}".format (test_confidence.get ((premise, conclusion), 
= ))) 
print ( Ca ) 
我 们 来 看 一 下 在 新 数据 集 上 哪些 规则 最 适用 。 
Rule #1 


Rule: If a person recommends Shawshank Redemption, The (1994), Pulp 
Fiction (1994), Silence of the Lambs, The (1991), Star Wars (1977), 
‘Twelve Monkeys (1995) they will also recommend Raiders of the Lost Ark 
(1981) 

- Train Confidence: 1.000 
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- Test Confidence: 0.909 


Rule #2 


Rule: If a person recommends Silence of the Lambs, The (1991), Fargo 


(1996), Empire Strikes 


Back, The (1980), Fugitive, The (1993), Star 


Wars (1977), Pulp Fiction (1994) they will also recommend Twelve 


Monkeys (1995) 
- Train Confidence: 1 


.000 


- Test Confidence: 0.609 


Rule #3 


Rule: If a person recommends Silence of the Lambs, The (1991), Empire 
Strikes Back, The (1980), Return of the Jedi (1983), Raiders of the 
Lost Ark (1981), Twelve Monkeys (1995) they will also recommend Star 


Wars (1977) 


- Train Confidence: 1. 


000 


- Test Confidence: 0.946 


Rule #4 


Rule: If a person recommends Shawshank Redemption, The (1994), Silence 
of the Lambs, The (1991), Fargo (1996), Twelve Monkeys (1995), Empire 
Strikes Back, The (1980), Star Wars (1977) they will also recommend 
Raiders of the Lost Ark (1981) 


- Train Confidence: 1. 


000 


- Test Confidence: 0.971 


Rule #5 


Rule: If a person recommends Shawshank Redemption, The (1994), Toy 
Story (1995), Twelve Monkeys (1995), Empire Strikes Back, The (1980) ， 


Fugitive, The (1993), 
of the Jedi (1983) 


- Train Confidence: 1. 


Star Wars (1977) they will also recommend Return 


000 


- Test Confidence: 0.900 


| 


举例 来 说 ， 第 二 条 规则 ， 








ly 


在 训练 集中 置信 和 度 为 1， 但 在 测试 集 上 正确 率 只 有 60%。 但 前 十 条 

















规则 中 ， 其 他 几 条 规则 在 测试 集 上 置信 和 度 也 很 高 ， 用 它们 来 推荐 电影 效果 不 错 。 


值 。 负 数 表示 


A 


| KW 浏 可 能 发 现 有 些 规则 的 置信 度 为 -1。 置 信和 度 一 般 为 0 到 1 之 
间 的 


4.5 小结 











本 章 把 亲 和 性 分 析 用 到 电 








影 推荐 上 ， 从 大 量 电影 打分 数据 中 找到 可 用 于 电影 推荐 的 关联 规 





ttt 


则 。 整 个 过 程 分 为 两 大 阶段 。 首先， 借助 Aprior 算 法 寻找 数据 中 的 频繁 项 集 。 然 后 ,根据 找到 的 





频繁 项 集 ， 生 成 关联 规则 。 























由 于 数据 集 较 大 ，Apriori 算 法 就 很 有 必要 。 虽 然 第 1 章 使 用 最 笨 的 方法 来 寻找 规则 ， 但 是 在 
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这 里 就 不 适用 了 ,由 于 时 间 复 杂 度 旦 指数 级 增长 ,我 们 需要 寻找 更 巧妙 的 解决 方案 。 这 种 现象 在 
数据 挖掘 中 很 常见 : 虽然 可 以 用 最 笨 的 方法 穷尽 所 有 情况 来 解决 问题 , 但 在 数据 量 很 大 的 情况 下 
必须 要 使 用 更 灵活 、 更 快捷 的 算法 。 

我 们 用 一 部 分 数据 作为 训练 集 以 发 现 关 联 规则 , 在 剩余 数据 一 一 测试 集 上 进行 测试 。 可 以 用 
前 儿童 的 交叉 检验 方法 对 每 条 规则 的 效果 进行 更 为 充分 的 评估 。 

到 目前 为 止 , 我们 使 用 的 数据 集 都 有 很 明显 的 特征 。 然 而 ， 不 是 所 有 数据 集 都 是 这 个 样子 。 
下 一 章 将 学 习 用 scikit-learn 的 转换 器 〈 第 3 章 曾 介绍 过 ) 从 数据 中 抽取 特征 。 还 将 讨论 怎 术 
实现 自己 的 转换 絮 和 扩展 已 有 转换 占 ， 并 介绍 相关 概念 。 
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前 几 章 所 用 到 的 数据 集 都 是 用 特征 来 描述 的 。 虽 然 上 一 章 的 数据 集 为 交易 类 型 的 数据 , 形式 
稍 有 不 同 ， 但 归根 结 底 还 是 一 种 用 特征 来 描述 的 数据 集 。 


除 此 之 外 ， 还 有 很 多 其 他 类 型 的 数据 集 ， 比 如 文本 、 图 像 、 声 音 、 视 频 甚 至 是 真实 的 物体 。 
然而 , 大 多 数 数据 挖掘 算法 都 依赖 于 数值 或 类 别 型 特征 。 这 表明 在 使 用 数据 挖掘 算法 处 理 它 们 之 
前 ， 需 要 找到 一 种 表示 它们 的 方法 。 

本 章 所 讨论 的 是 如 何 从 数据 集中 抽取 数值 和 类 别 型 特征 ,并 选 出 最 佳 特征 ,前 提 是 数据 集 确 
实 包含 这 些 特征 。 我 们 还 会 介绍 特征 抽取 的 常用 模式 和 技巧 。 

本 章 主 要 介绍 以 下 几 个 概念 。 

口 从 数据 集中 抽取 特征 
口 创建 新 特征 


口 选取 好 特征 
口 创建 转换 器 ， 处 理 数据 集 






























































5.1 特征 抽取 


特征 抽取 是 数据 挖掘 任务 最 为 重要 的 一 个 环节 , 一 般 而 言 , 它 对 最 终结 果 的 影响 要 高 过 数据 
挖掘 算法 本 身 。 不 幸 的 是 ,关于 怎样 选取 好 的 特征 ， 还 没有 严格 、 快 捷 的 规则 可 循 ， 其 实 这 也 是 
数据 挖掘 科学 更 像 是 一 门 艺术 的 所 在 。 创建 好 的 规则 离 不 开 直 觉 , 还 需要 专业 领域 知识 和 数据 挖 
气 经 验 ， 光 有 这 些 还 不 够 ， 还 得 不 停 地 尝试 、 摸 索 ， 在 试 错 中 前 进 ， 有 时 多 少 还 要 靠 点 运气 。 


























5.1.1 在 模型 中 表示 事实 


不 是 所 有 的 数据 集 都 是 用 特征 来 表示 的 。 数 据 集 可 以 是 一 位 作家 所 写 的 全 部 书籍 , 也 可 以 是 
1979 年 以 来 所 有 电影 的 胶片 ， 还 可 以 是 馆藏 的 一 批 历史 文物 。 
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我 们 可 能 想 对 以 上 数据 集 做 数据 挖 气 。 对 于 作家 的 作品 , 我 们 想 知 道 这 位 作家 都 写 过 哪些 主 
题 ; 对 于 电影 ， 我 们 想 知道 女性 形象 是 怎么 塑造 的 ; 对 于 文物 ， 我们 想 知 道 它 们 是 何方 产物 。 我 
们 没 办 法 把 实物 直接 塞 进 决策 树 来 得 到 结 

只 有 先 把 现实 用 特征 表示 出 来 , 才能 借助 数据 挖掘 的 力量 找到 问题 的 答案 。 特 征 可 用 于 建 模 ， 
模型 以 机 带 挖 气 算 法 能 够 理解 的 近似 的 方式 来 表示 现实 。 因 此 可 以 说 , 模型 描述 了 客观 世界 中 对 
象 的 茶 些 方面 ， 是 它 的 一 个 简化 版 本 。 举 例 来 说 ,象棋 就 是 对 过 往 战事 简化 后 得 到 的 一 种 模型 。 

特征 选择 的 另 一 个 优点 在 于 : 降低 真实 世界 的 复杂 度 ， 模 型 比 现实 更 容易 操纵 。 想 象 一 下 ， 
向 一 个 没有 任何 背景 知识 的 人 介绍 一 种 新 事物 , 要 给 出 恰如其分 、 精 确 又 不 失 全 面 的 描述 需要 提 
供 多 少 信 息 。 我 们 可 能 需要 介绍 其 尺寸 、 重 量 、 质 地 、 成 分 、 年 龄 、 瑕 辣 、 用 途 、 产 地 等 信息 。 

实物 的 复杂 性 对 目前 的 算法 而 言 过 于 复杂 ,我 们 退 而 求 其 次 ,使 用 更 为 简洁 的 模型 来 表示 实物 。 

简化 要 以 数据 挖掘 应 用 的 目标 为 核心 。 本 书后 面 会 讲 到 聚 类 ,对 这 类 应 用 而 言 ， 特 征 选 取 至 
关 重 要 ， 如 果 随 意 选 取 特征 ， 分 簇 结 果 因 选择 的 特征 而 异 ， 呈现 出 很 强 的 随机 性 。 

降低 复杂 性 有 好 处 ,但 也 有 不 足 , 简化 会 忽略 很 多 细节 ,甚至 会 抛弃 很 多 对 数据 挖掘 算法 能 
起 到 帮助 作用 的 信息 。 

我 们 应 该 始终 关注 怎么 用 模型 来 表示 现实 , 要 多 考虑 数据 挖掘 的 目标 , 而 不 是 轻率 地 用 我 们 
过 去 用 过 的 特征 。 要 经 常 想 想 我 们 的 目标 是 什么 。 第 3 章 创建 特征 时 充分 考虑 目标 ( 预测 说 家 )， 
使 用 篮球 比赛 领域 相关 知识 ， 找 出 哪些 因素 与 比赛 结果 密切 相关 ， 据 此 再 创建 新 特征 。 




















































































































不 是 所 有 的 特征 必须 是 数值 或 类 别 型 值 , 直接 用 于 文本 、 图 像 和 其 他 数据 结 
构 的 算法 已 经 研究 出 来 了 。 不 垃 的 是 , 篇幅 有 限 ， 本 书 主要 讲解 数值 和 类 别 型 特 
征 ， 不 涉及 上 述 算法 。 











用 Adult 数 据 集 讲解 如 何 借助 特征 为 复杂 的 现实 世界 建 模 再 好 不 过 。 我 们 这 里 数据 挖掘 的 目 
标 是 ， 预 测 一 个 人 是 否 年 收入 多 于 五 万 美元 。 数 据 集 下 载 地 址 为 http://archive.ics.uci.edu/ml/ 
datasets/Adult， 点 击 Data Folder 链 接 。 下 载 adultdata 和 adultnames 文 件 ， 在 数据 集 文 件 夹 ( 主 目 
录 下 Data 文 件 夹 ) 中 创建 Adult 文 件 夹 ， 将 这 两 个 文件 放 到 里 面 。 

数据 集 用 特征 描述 了 一 个 个 活生生 的 人 及 其 他 们 所 处 的 环境 、 背 景 和 生活 状况 。 

打开 IPython Notebook,， 新 建 一 个 笔记 本 文件 用 于 本 章 实验 , 导入 pandas 模 块 ， 指 定数 据 集 文 
件 的 路 径 ， 用 pandas 加 载 数据 集 文 件 。 

import os 


Import pandas as pd 
data_folder = os.path.join(os.path.expanduser ("~"), "Data", 
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"Adult") 
adult_filename = os.path.join(data_folder, "adult.data") 
Using pandas as before, we load the file with read_ cs8syv: 
adult = pd.read csv(adult_filename, header=None, 





names=["Age", "Work-Class", "fnlwgt", 
"Education", "Education-Num", 
"Marital-Status", "Occupation", 
"Relationship", "Race", "Sex", 
"Capital-gain", "Capital-loss", 
"Hours-per-week", "Native-Country", 


"Earnings-Raw"]) 
大 部 分 代码 在 上 一 章 都 见 过 。 
adult.data 文 件 末尾 有 两 处 空 行 。pandas 默 认 把 倒数 第 二 行 空 行 作为 一 条 有 效 数 据 读 人 只 不 
过 各 列 的 值 为 空 )。 我 们 需要 删除 包含 无 效 数字 的 行 (设置 tnplace 参 数 为 真 ， 表 示 改 动 当 前 数 
据 框 ， 而 不 是 新 建 一 个 )。 
adult.dropna (how='all', inplace=True) 


输入 下 面 代 码 并 运行 ， 查 看 所 有 的 特征 名 称 。 











adult .columns 


下 面 为 所 有 保存 在 pandas 的 Index 对 象 中 的 特征 名 称 。 


Index(['Age', 'Work-Class', 'fnlwgt', 'Education', 
'Education-Num', 'Marital-Status', 'Occupation', 'Relationship', 
'Race', 'Sex', 'Capital-gain', 'Capital-loss', 'Hours-per-week', 
'Native-Country', 'Earnings-Raw'], dtype='object') 


5.1.2 ”通用 的 特征 创建 模式 


纵然 有 数 不 清 的 特征 创建 方法 ,但 其 中 有 一 些 是 适用 于 不 同学 科 的 通用 模式 。 然 而 ,选择 合 
适 的 特征 是 项 技术 活 , 需要 考虑 特征 和 最 终结 果 之 间 的 相互 关系 。 正 如 谚语 所 说 的 , 不 要 用 封面 
来 评价 书 的 好 坏 一 一 如 果 你 对 书 的 内 容 感 兴趣 ， 书 的 大 小 可 能 不 用 考虑 。 
些 通用 特征 关注 的 是 所 研究 对 象 的 物理 属性 。 
口 空间 属性 ， 比 如 对 象 的 长 、 宽 、 高 
口 重量 和 (或 ) 密度 
口 年 龄 、 使 用 年 限 或 成 分 
口 种 类 
口 品质 


男 一 些 特征 可 能 与 对 象 的 使 用 或 历史 相关 。 
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口 生产 商 、 出 版 商 或 创造 者 
口 生产 时 间 
口 使 用 方法 


还 有 一 些 特征 从 组 成 成 分 角度 描述 对 象 。 
口 次 级 成 分 的 频率 ， 如 一 本 书 中 某 个 单词 的 词 频 
口 次 级 成 分 的 数量 和 ( 或) 次 级 成 分 种 类 的 数量 
口 次 级 成 分 的 平均 大 小 ， 例 如 平均 句 长 

序数 特征 可 对 其 排序 、 分 组 。 正 如 前 几 章 所 见 到 的 ,特征 可 以 是 数值 或 类 别 型 特征 。 数 值 特 
征 通常 被 看 作 是 有 顺序 的 〈ordinal )。 例 如 ， 爱 丽 丝 、 鲍 勃 、 查 理 三 个 人 身高 分 别 为 1.3m、1.6m 
和 1.7m。 我 们 可 以 说 爱丽 丝 和 鲍 勃 ， 比 起 爱丽 丝 和 查理 ， 在 身高 上 更 相似 。 

上 一 节 我 们 导入 的 数据 集 , 包含 连续 特征 、 序 数 特征 。 例 如 ，Hours-per-week 特 征 表示 一 
个 人 每 周 的 工作 时 间 。 这 个 特征 可 用 来 计算 平均 工作 时 间 、 标 准 差 、 最 大 值 和 最 小 值 。pandas 提 
供 了 常见 统计 量 的 计算 方法 。 

adult ["Hours-per-week"] .describe() 

输出 结果 让 我 们 对 这 个 特征 有 了 更 多 了 解 。 


count 32561.000000 






























































mean 40.437456 
StdQ 12.347429 
min 1.000000 
25% 40.000000 
50% 40.000000 
75% 45.000000 
max 99.000000 


dtype: float64 

这 些 统计 方法 对 其 他 特征 可 能 没有 意义 。 例 如 ,计算 受 教育 程度 的 和 就 讲 不 通 。 

还 有 些 特征 , 它们 虽然 不 是 数值 , 但 仍然 属于 序数 值 , 比如 Adult 数 据 集中 的 Edaucation ( 教 
育 ) 特征 ,学士 学 位 比 高 中 毕业 ， 在 受 教育 程度 上 ， 要 高 一 个 层次 ， 而 高 中 毕业 又 比 没 有 完成 高 
中 学 业 高 一 个 层次 。 计 算 它 俩 的 均值 就 没有 意义 , 但 是 我 们 可 以 找到 一 种 近似 的 表示 方法 。 数 据 
集 有 个 叫 作 Education-Num ( 受 教育 年 限 ) 的 特征 ， 它 的 取 值 基本 上 就 是 每 个 教育 阶段 的 年 限 。 
这 样 我 们 就 能 快速 计算 受 教育 年 限 的 均值 。 

adult["Education-Num"] .median() 

结果 为 10, 或 者 可 以 表述 为 刚好 读 完 高 一 。 如 果 没 有 受 教 育 年 限 数 据 ， 我们 为 不 同 教 育 阶段 
指定 数字 编号 ， 也 可 以 计算 均值 。 


特征 也 可 以 是 类 别 型 的 。 例 如 ， 一 个 球 可 以 是 网 球 、 棒 球 、 足 球 或 其 他 种 类 。 类 别 型 特征 也 
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可 以 称 为 名 义 特征 ( nominal )。 对 于 名 义 特 征 而 言 ， 几 个 值 之 间 要 么 相同 要 么 不 同 。 球 类 可 以 根 
据 大 小 或 重量 排序 ,但 是 无 法 仅 根据 类 别 值 进行 量 上 的 比较 。 网 球 不 是 棒球 ， 也 不 是 足球 。 我 们 
可 以 说 比 起 足球 , 网球 的 大 小 跟 棒 球 更 接近 , 但 是 无 法 在 类 别 上 做 类 似 的 区 分 一 一 它们 要 么 是 同 


一 类 ， 要 么 不 是 。 












































类 别 型 特征 二 值 化 后 就 变 成 了 数值 型 特征 ， 第 3 章 中 曾经 用 过 。 对 于 上 述 球 的 种 类 ， 可 以 创 
建 三 个 二 值 特 征 :“ 是 网 球 ”“ 是 棒球 ”和 “是 足球 "”。 如 果 是 网 球 的 话 ， 特 征 向 量 就 是 [1, 0, 0] ， 
棒球 [0, 1, 0]， 足 球 [0, 0, 1]。 这 些 特征 都 只 有 两 个 取 值 ， 很 多 算法 都 可 以 把 它们 作为 连续 型 特征 
使 用 。 二 值 化 的 好 处 是 ,便于 直接 进行 数字 上 的 比较 ( 例如 计算 个 体 之 间 的 距离 )。 


Adult 数 据 集 包含 一 些 类 别 型 特征 ， 例 如 Work-class (工作 )， 其 中 它 的 有 些 值 可 以 进行 量 
级 上 的 比较 ， 比 如 不 同 的 就 业 状 况 影 响 收 入 (例如 有 工作 的 人 比 没有 工作 的 人 收入 高 )。 再 比如 ， 
州 政府 职员 的 工资 不 太 可 能 比 私企 职工 工资 高 。 


用 数据 框 的 unique 函 数 就 能 得 到 所 有 的 工作 情况 。 


adult ["Work-Class"] .unique() 


































































































人 

输出 结果 如 下 : 

array ([' State-gov', ' Self-emp-not-inc', ' Private', ' Federal-gov', 
' Local-gov', ' ?', ' Self-emp-inc', ' Without-pay', 


' Never-worked', nan], dtype=object) 
数据 集 部 分 数据 缺失 ， 但 不 会 影响 这 里 的 计算 。 


同 理 ， 数 值 型 特征 也 可 以 通过 离散 化 过 程 转 换 为 类 别 型 特征 ， 第 4 章 中 曾 用 过 。 例 如 ， 高 于 
1.7m 的 人 , 我 们 称 其 为 高 个 子 , 低 于 1.7m 的 叫 作 矮 个 子 。 这 样 就 得 到 了 类 别 型 特征 ( 虽然 是 序数 
值 类 型 )。 在 这 个 过 程 中 确实 丢失 了 一 些 信息 。 例 如 ， 有 两 个 人 ， 身 高 分 别 为 1.69m 和 1.71m， 这 
两 个 个 子 差不多 的 将 被 分 到 两 个 截然 不 同 的 类 别 里 。 而 身高 仅 为 1.2m 的 将 会 被 认为 与 身高 1.69m 
的 “差不多 高 ”! 细 闻 的 丢失 是 离散 化 不 好 的 一 面 ， 也 是 建 模 时 需要 考虑 解决 的 问题 。 


对 于 Adult 数 据 集 ， 我 们 可 以 创建 LongHours (时 长 ) 特征 ， 用 它 来 表示 一 个 人 每 周 工作 时 
长 是 否 多 于 40 小 时 。 这 样 就 把 连续 值 ( Hours-per-week， 每 周 工作 时 长 ) 转换 为 类 别 型 特征 。 



















































































adult["LongHours"] = adult["Hours-per-week"] > 40 


5.1.3 创建 好 的 特征 


建 模 过 程 中 , 需要 对 真实 世界 中 的 对 象 进行 简化 ,这 会 导致 信息 的 丢失 ,这 也 就 是 为 什么 没 
有 一 套 能 够 用 于 任何 数据 集 的 通用 的 数据 挖掘 方法 。 数 据 挖掘 的 行家 里 手 需 要 拥有 数据 来 源 领域 
的 知识 ,没有 的 话 ， 要 积极 去 掌握 。 他 们 弄 清 楚 问题 是 什么 ， 了 解 有 哪些 可 用 数据 后 ， 在 此 基础 
上 ， 才 能 创建 解决 问题 所 需 的 模型 。 
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例如 ， 身 高 这 个 特征 描述 的 是 一 个 人 外 表 的 某 个 方面 ， 但 是 不 能 说 明 这 个 人 学 习 成 绩 如 何 ， 
所 以 预测 学 习 成 绩 时 ， 我 们 没 必要 去 测量 每 个 人 的 身高 。 

这 正 是 数据 挖掘 为 什么 变 得 更 像 是 一 门 艺术 而 不 是 科学 的 原因 所 在 。 抽 取 好 的 特征 难度 不 
小 , 该 课题 具有 重要 研究 意义 ， 因 此 它 获 得 了 研究 人 员 的 持续 关注 。 选 择 好 的 分 类 算法 也 可 以 提 
升 数据 挖掘 应 用 的 效果 ， 但 最 好 还 是 通过 选用 好 的 特征 来 达到 同样 的 目的 。 

不 论 是 设计 什么 数据 挖掘 应 用 ,首先 都 应 该 确定 大 致 的 方向 ， 然 后 再 设计 方法 实现 目标 。 知 
道 自己 的 目标 之 后 ， 就 能 确定 所 需要 的 特征 类 型 和 算法 ， 对 最 终结 果 也 做 到 心中 有 数 。 













































































通常 特征 数量 很 多 ， 但 我 们 只 想 选 用 其 中 一 小 部 分 。 有 如 下 几 个 原因 。 


口 降低 复杂 度 : 随 着 特征 数量 的 增加 ， 很 多 数据 挖掘 算法 需要 更 多 的 时 间 和 资源 。 减 少 特 

征 数量 ， 是 提高 算法 运行 速度 ， 减 少 资 源 使 用 的 好 方法 。 

口 降低 嗓音 : 增加 额外 特征 并 不 总 会 提升 算法 的 表现 。 额 外 特征 可 能 扰乱 算法 的 正常 工作 ， 
这 些 额 外 特征 间 的 相关 性 和 模式 没有 实际 应 用 价值 ( 这 种 情况 在 小 数据 集 上 很 常见 )。 只 
选择 合适 的 特征 有 助 于 减少 出 现 没 有 实际 意义 的 相关 性 的 几率 。 

口 增加 模型 可 读 性 : 根据 成 二 上 万 个 特征 创建 的 模型 来 解答 一 个 问题 ， 对 计算 机 来 说 很 容 
易 ， 但 模型 对 我 们 自己 来 说 就 蜀 汐 无 比 。 因 此 ， 使 用 更 少 的 特征 ， 创 建 我 们 自己 可 以 理 
解 的 模型 ， 就 很 有 必要 。 


有 些 分 类 算法 确实 很 强壮 , 能 够 处 理 噪音 问题 , 特征 再 多 也 不 在 话 下 , 但 是 选用 干净 的 数据 ， 
选取 更 具 描述 性 的 特征 ， 对 算法 效果 提升 很 有 帮助 。 

在 开展 数据 挖掘 工作 前 ， 有 些 基础 性 测试 我 们 要 做 ， 比 如 确保 特征 值 是 不 同 的 。 如 果 特 征 值 
都 相同 ， 就 跟 没 提供 什么 信息 一 样 ， 控 掘 就 失去 了 意义 。 


scikit-learn 中 的 VarianceThreshold 转 换 器 可 用 来 删除 特征 值 的 方差 达 不 到 最 低 标 准 
的 特征 。 下 面 通过 代码 来 讲 下 它 的 用 法 ， 首 先 用 numpy 创 建 一 个 简单 的 矩阵 。 



























































import numpy as np 
X = np.arange(30) .reshape((10, 3)) 


上 述 矩 阵 包 含 0 到 29 ， 共 30 个 数字 ， 分 为 3 列 10 行 。 可 以 把 它 看 成 一 个 有 10 个 个 体 、3 个 特征 
的 数据 集 。 


\D OU 
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[12，13，14] 

[15, 16, 17] 

[18, 19, 20] 

[2 2 23] 

[24，25，26] 

[27，28，29]] 
接着 ， 把 所 有 第 二 列 的 数值 都 改 为 1。 
区 让 二 于 


第 一 、 三 列 特征 值 方差 很 大 ， 而 第 二 列 方差 为 0。 
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这 时 再 来 创建 VarianceThresholg 转 换 器 ， 用 它 处 理 数 据 集 。 


from sklearn.feature_ selection import VarianceThreshold 
vt = VarianceThreshold() 
Xt = vt.fit_ transform(X) 


输出 xt 后 ， 我 们 发 现 第 二 列 消失 了 。 











aeray. GL "0 ,2 
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输出 每 一 列 的 方差 。 
print (vt .variances_ ) 


下 面 输出 结果 表明 第 一 、 三 列 包 含有 价值 信息 , 第 二 列 方差 为 0, 不 包含 具有 区 别 意义 的 信息 。 








工区 人 [光臣 


无 论 什么 时 候 , 拿 到 数据 后 , 先 做 下 类 似 简单 、 直接 的 分 析 , 对 数据 集 的 特点 做 到 心中 有 数 。 
方差 为 0 的 特征 不 但 对 数据 挖掘 没有 丝毫 用 处 ， 相 反 还 会 拖 慢 算法 的 运行 速度 。 
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选择 最 佳 特征 

特征 很 多 的 情况 下 ， 怎 么 选 出 最 佳 的 几 个 ， 可 有 点 难度 。 它 与 解决 数据 挖掘 问题 自身 相关 ， 
计算 量 很 大 。 正 如 第 4 章 讲 到 的 ， 随 着 特征 数量 的 增加 ， 寻 找 子 集 的 任务 复杂 度 呈 指数 级 增长 。 
寻找 最 佳 特征 组 合 的 时 间 复 杂 度 同样 是 指数 级 增长 的 。 


其 中 一 个 变通 方法 是 不 要 找 表 现 好 的 子 集 ， 而 只 是 去 找 表 现 好 的 单个 特征 〈 单 变量 )， 依 据 
是 它们 各 自 所 能 达到 的 精确 度 。 分 类 任务 通常 是 这 么 做 的 , 我 们 一 般 只 要 测量 变量 和 目标 类 别 之 
间 的 某 种 相关 性 就 行 。 


scikit-learn 提 供 了 几 个 用 于 选择 单 变量 特征 的 转换 器 ， 其 中 selectKBest 返 回 k 个 最 佳 
村 征 ，SelectPercentile 返 回 表现 最 佳 的 前 r% 个 特征 。 这 两 个 转换 器 都 提供 计算 特征 表现 的 
一 系列 方法 。 

单个 特征 和 某 一 类 别 之 间 相关 性 的 计算 方法 有 很 多 。 最 常用 的 有 卡 方 检 验 ( x ) 。 其 他 方 
法 还 有 互信 息 和 信息 箭 。 

我 们 可 以 测试 单个 特征 在 Adult 数 据 集 上 的 表现 。 首先, 选取 下 述 特征 ， 从 pandas 数 据 框 中 抽 
取 一 部 分 数据 。 


xX = adult[["Age", "Education-Num", "Capital-gain", "Capital-loss", 
"Hours-per-week"]] .values 


接着 ,判断 Earnings-Raw ( 税 前 收入 ) 是 否 达 到 五 万 美元 ， 创建 目标 类 别 列表 。 如 果 达 到 ， 
类 别 为 True， 和 否则 ， 类 别 为 False。 人 代码 如 下 : 

























































































y = (adult["Earnings-Raw"] == ' >50K') .values 
再 使 用 selectKBest 转 换 器 类 ， 用 卡 方 函 数 打分 ， 初 始 化 转换 器 。 


from sklearn.feature_ selection import SelectKBest 
from sklearn.feature_ selection import chi2 
transformer = SelectKBest (score_ func=chi2, k=3) 


调用 fit_transform 方 法 ， 对 相同 的 数据 集 进行 预 处 理 和 转换 。 结 果 为 分 类 效果 较 好 的 三 
个 特征 。 代 码 如 下 : 








Xt_chi2 = transformer.fit transform(x, y) 


生成 的 矩阵 只 包含 三 个 特征 。 我 们 还 可 以 得 到 每 一 列 的 相关 性 , 这 样 就 可 以 知道 都 使 用 了 哪 
些 特征 。 还 是 看 下 代码 : 











print (transformer .scores_) 


输出 结果 如 下 : 
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[ 8.60061182e+03 2.40142178e+03 8.21924671e+07 1.37214589e+06 
6.47640900e+03] 


相关 性 最 好 的 分 别 是 第 一 、 三 、 四 列 ， 分 别 对 应 着 age ( 年龄 ) 、capital-Gain (资本 收 
益 ) 和 capital-Loss (资本 损失 ) 三 个 特征 。 从 单 变量 特征 选取 角度 来 说 , 这些 就 是 最 佳 特 征 。 






































如 果 你 想 了 解 更 多 关于 Adult 数 据 集 各 特征 的 相关 信息 ， 请 查看 adult.names 
> 文件 ， 里 面 有 更 多 介绍 及 相关 文献 。 


还 可 以 用 其 他 方法 计算 相关 性 ， 比 如 皮尔 逊 (Pearson ) "相关 系数 。 用 于 科学 计算 的 SciPy 
库 ( scikit-learn 在 它 基 础 上 开发 ) 实现 了 该 方法 。 


如 果 你 的 计算 机 可 以 运行 Scikit-learn， 那 么 就 可 以 运行 SciPy。 运 行 下 
面 这 个 例子 不 需要 装 额 外 的 库 。 


首先 ， 从 SciPy 导 入 pearsonr 国 数 。 


from scipy.stats import pearsonr 


pearsonr 卫 数 的 接口 几乎 与 scikit-learn 单 变量 转换 器 接口 一 臻 ， 该 隐 数 接收 两 个 数组 
( 当前 例子 中 为 x< 和 y ) 作为 参数 ， 返 回 两 个 数组 : 每 个 特征 的 皮尔 逊 相关 系数 和 p 值 ( p-value )。 
前 面 用 到 的 chi2 函 数 使 用 的 接口 符合 要 求 ， 因 此 我 们 直接 把 它 传人 到 selectKBest 函 数 中 。 


SciPy 的 pearsonr 函 数 参 数 为 两 个 数组 ， 但 要 注意 的 是 第 一 个 参数 x 为 一 维 数 组 。 我 们 来 实 
现 一 个 包装 右 函 数 ， 这 样 就 能 像 前 面 那 样 处 理 多 维 数 组 。 函 数 声明 如 下 : 

















def multivariate pearsonr (X, y): 


创建 scores 和 pvalues 数 组 ， 遍 历数 据 集 的 每 一 列 。 





scores, pvalues = [], [] 
for column in range(X.shape[1]) : 


只 计算 该 列 的 皮尔 逊 相关 系数 和 p 值 ， 并 将 其 存储 到 相应 数组 中 。 


Cur_score, cur_p = pearsonr(X[:,column], y) 
scores.append(abs (cur_score)) 
pvalues.append (cur_p) 














@ 卡尔. 皮尔 逊 (Karl Pearson，1857 一 1936 )， 原 名 Carl， 英 国 数学 家 、 生 物 统计 学 家 。 一 一 译 者 注 
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p 值 为 -1 到 1 之 间 的 任意 值 。 值 为 1， 表示 两 个 变量 之 间 绝 对 正 相关 ， 值 为 -1 ， 
绝对 负 相关 ， 即 一 个 变量 值 越 大 ， 另 一 个 变量 值 就 越 小 , 反之 亦 然 。 这 样 的 特征 
NS、、 确实 能 反应 两 个 变量 之 间 的 关系 ,但 是 根据 大 小 进行 排序 , 这些 值 因为 是 负数 而 
排 在 后 面 ， 可 能 会 被 舍弃 不 用 。 因 此 ,我们 对 p 值 取 绝对 值 后 ， 再 保存 到 scores 
数组 中 ， 而 不 是 使 用 原始 值 。 


函数 最 后 返回 包含 皮尔 逊 相关 系数 和 p 值 的 元 组 。 
return (np.array (scores), np.array (pvalues)) 
现在 ， 我 们 就 可 以 像 之 前 那样 使 用 转换 器 类 ， 根 据 皮 尔 逊 相关 系数 对 特征 进行 排序 。 


transformer = SelectKBest (score_ func=multivariate pearsonr, k=3) 
Xt_pearson = transformer.fit transform(X, y) 
print (transformer.scores, ) 


返回 的 特征 跟 用 卡 方 检 验 计算 相关 性 得 到 的 特征 不 一 样 ! 这 回 得 到 的 是 第 一 、 二 、 五 列 : Age、 
Education 和 Hours-per-week。 这 表明 哪些 特征 是 最 好 的 这 个 问题 没有 标准 答案 一 一 取决 于 度 
量 标准 。 

我 们 在 分 类 器 中 看 看 哪个 特征 集合 效果 更 好 。 请 注意 实验 结果 也 只 表明 对 于 特定 分 类 器 和 
(或 ) 特征 子 集 效 果 更 好 一 一 在 数据 挖掘 领域 ， 一 种 方法 在 任何 情况 下 都 比 另 一 种 方法 好 的 情况 
几乎 没有 ! 实验 代码 如 下 : 

from sklearn.tree import DecisionTreeClassifier 

from sklearn.cross_validation import cross_val_score 

clf = DecisionTreeClassifier(random state=14) 

scores_chi2 = cross_val_scorel(clf, Xt_chi2, y, scoring='accuracy') 


scores_pearson = cross_val_score(clf, Xt_pearson, y, 
scoing='accuracy') 


chi2 方 法 的 平均 正确 率 为 0.83 ， 而 皮尔 逊 相关 系数 正确 率 为 0.77。 用 卡 方 检验 得 到 的 特征 组 
合 效 果 更 好 ! 
别 忘 了 本 章 数 据 挖掘 任务 目标 是 预测 收入 。 使 用 特征 选择 技术 ,找到 好 的 特征 组 合 ， 只 用 三 
征 ， 就 能 达到 83% 的 正确 率 ! 
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有 时 , 仅仅 选择 已 有 特征 不 够 用 。 这 时 , 我 们 就 可 以 用 不 同 的 方法 从 已 有 特征 中 发 掘 新 特征 ， 
比如 前 面 用 到 的 一 位 有 效 编码 (one-hot encoding )， 我 们 可 以 用 它 把 有 A、B、C 三 个 选项 的 类 别 
型 特征 转换 为 三 个 新 的 特征 :“ 是 A 吗 ? ”“ 是 B 吗 ? ”和 “是 C 吗 ?”。 
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创建 新 特征 看 上 去 没 必要 ,也 没什么 好 处 一 一 毕竟 ,这 些 信息 原本 就 在 数据 集 里 ,我 们 只 是 
要 用 和 而已。 然而， 特征 之 间 相 关 性 很 如 ， 或 者 特征 宛 余 ， 会 增加 算法 处 理 难度 。 


出 于 这 个 原因 ， 创 建 特征 就 很 有 必要 ， 很 多 方法 也 应 运 而 生 。 


接 下 来 ,我们 要 加 载 一 个 新 数据 集 ， 正 好 也 该 创建 一 个 新 的 IPython Notebook 笔 记 本 文件 了 。 
从 http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements 下 载 Advertisements( 广告 ) 数据 集 ， 
保存 到 自己 主 目录 下 的 Data 文 件 夹 中 。 


接着 ， 用 pandas 加 载 数据 集 。 我 们 还 是 先 指定 文件 的 路 径 。 


import os 

import numpy as np 

import pandas as pd 

data_folder = os.path.join(os.path.expanduser ("~"), "Data") 
data_filename = os.path.join(data_folder, "Ads", "ad.data") 


数据 集 存在 几 个 问题 , 加 载 过 程 需要 我 们 做 些 处 理 。 问题 一 , 前 几 个 特征 是 数值 , 但 是 pandas 
会 把 它们 当成 字符 串 。 要 修复 这 个 问题 ,我 们 需要 编写 将 字符 串 转换 为 数字 的 函数 ， 该 函数 能 够 
把 只 包含 数字 的 字符 串 转换 为 数字 , 把 其 余 的 转化 为 "NaN”"( ”NotaNumber”, 不 是 一 个 数字 )， 
表示 参数 值 无 法 转换 为 数字 ， 该 值 类 似 于 其 他 编程 语言 中 的 none 或 null。 


问题 二 ， 数 据 集中 有 些 值 缺失 ， 缺 失 的 值 用 “?” 表 示 。 幸 运 的 是 ， 问 号 不 会 被 转换 为 浮 点 
型 数据 ， 因 此 ， 我 们 也 可 以 把 它们 转换 为 “NaN”。 后 续 章 节 会 讲 到 其 他 处 理 缺 失 值 的 方法 。 


转换 函数 声明 如 下 : 
































def convert_number (x): 


先 试 着 把 字符 串 转 换 为 数字 , 如 果 失 败 就 要 处 理 异常 , 所 以 我 们 这 里 使 用 try /except 结 构 ， 
捕获 ValueError 异 常 (字符 串 无 法 转换 为 数字 时 ， 抛 出 异常 )。 



































ty 
return float (x) 
except ValueError: 


在 函数 的 最 后 ， 如 果 转 换 失 败 ， 返 回 numpy 库 中 的 “NaN” 类 型 。 





return np.nan 


我 们 来 创建 一 个 字典 存储 所 有 特征 及 其 转换 结果 ， 我 们 想 把 所 有 的 特征 值 转换 为 浮 点 型 。 








converters = defaultdict (convert_number) 


我 们 还 想 把 最 后 一 列 ( 编号 为 #1558 ) 的 值 转化 为 0 或 1， 该 列表 示 每 条 数据 的 类 别 。 在 Adult 











GD JavaScript 语 言 中 也 有 该 类 型 ， 详 见 《JavaScript 高 级 程序 设计 (第 3 版 )》 第 29 页 。 一 一 译 者 注 
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数据 集中 ,我 们 专门 创建 了 一 列表 示 类 别 。 对 于 当前 实验 ， 导入 数据 时 ,顺便 把 类 别 这 一 列 各 个 
类 别 值 由 字符 串 转 换 为 数值 。 


converters[1558] = lambda x: 1 if x.strip() == "ad." else 0 
可 以 用 read_csv 加 载 数据 集 了 ， 在 参数 中 指定 我 们 刚 创建 的 转换 函数 。 
ads = pd.read_csv(dqata_filename，headqer=None，converters=converters) 


数据 集 很 大 ， 有 1559 列 ，2000 多 条 数据 。 先 来 看 下 前 五 条 数据 ,在 笔记 本 的 新 格子 中 输入 并 
运行 ads [ :5]。 
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数据 集 所 描述 的 是 网 上 的 图 像 ， 目 标 是 确定 图 像 是 不 是 广告 。 


从 数据 集 表 头 中 无 法 获知 每 列 数 据 的 含义 。 你 下 载 的 另外 两 个 文件 ad.DOCUMENTATION 和 
ad.names 有 更 多 信息 。 前 三 个 特征 分 别 指 图 像 的 高 度 、 宽 度 和 宽 高 比 。 最 后 一 列 是 数据 的 类 别 ， 
1 表示 是 广告 ，0 表 示 不 是 广告 。 

其 余 特 征 取 值 为 1 的 话 ， 表 示 图 像 的 URL 、alt 属 性 值 或 图 像 标题 中 包含 某 个 特定 的 可 以 帮 
助 判断 是 不 是 广告 的 词语 ， 比 如 像 sponsor ( 装 助 商 ) 。 很 多 特征 重合 度 很 高 ， 因 为 它们 组 合 在 一 
起 恰好 是 其 他 特征 。 因 此 ， 数 据 集 包含 大 量 宛 余 信息 。 

将 数据 集 加 载 到 pandas 之 后 ， 我 们 再 来 抽取 用 于 分 类 算法 的 x 和 矩阵 和 y 数 组 ，x 和 矩阵 为 数据 框 
除去 最 后 一 列 的 所 有 列 ，y 数 组 包含 数据 框 的 最 后 一 列 ， 也 就 是 列 编号 为 #1558 的 列 。 代 码 如 下 。 


Ne 






































xX = ads.drop(1558, axis=1) .values 
y = ads[1558] 
主 成 分 分 析 








有 些 数据 集 ， 特 征 之 间 联 系 紧密 。 例 如 ， 只 有 1 个 档 的 微型 单 座 赛 车 ， 速 度 和 油耗 两 者 关系 就 
极为 密切 ,特征 间 的 相关 性 信息 在 某 些 场合 会 很 有 用 ,但 是 数据 挖掘 算法 通常 不 需要 这 些 宛 余 信息 。 

Advertisements 数 据 集 中 有 些 特征 相关 性 特别 大 , 因为 很 多 关键 词 在 图 像 的 alt 属 性 值 及 图 像 
的 标题 中 都 会 使 用 。 

主 成 分 分 析 算 法 (Principal Component Analysis，PCA ) 的 目的 是 找到 能 用 较 少 信息 描述 数 
据 集 的 特征 组 合 。 它 意 在 发 现 彼 此 之 间 没 有 相关 性 、 能 够 描述 数据 集 的 特征 ,确切 说 这 些 特征 的 
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方差 跟 整体 方差 没有 多 大 差距 ， 这 样 的 特征 也 被 称 为 主 成 分 。 这 也 就 意味 着 ， 借 助 这 种 方法 ， 就 
能 通过 更 少 的 特征 捕获 到 数据 集 的 大 部 分 信息 。 


PCA 跟 其 他 转换 器 用 法 类 似 。 它 只 有 主 成 分 数量 这 一 个 参数 。 它 默认 会 返回 数据 集中 的 所 有 
特征 。 然 而 ，PCA 会 对 返回 结果 根据 方差 大 小 进行 排序 ,返回 的 第 一 个 特征 方差 最 大 ， 第 二 个 特 
征 方差 稍 小 ， 以 此 类 推 。 因 此 ， 前 几 个 特征 往往 就 能 够 解释 数据 集 的 大 部 分 信息 。 请 见 代 码 : 
from sklearn.decomposition import PCA 


pca = PCA(n_ components=5) 
Xd = pca.fit_ transform(x) 


返回 的 结果 xa 和 矩 阵 只 有 五 个 特征 ， 但 是 不 容 小 舰 ， 我 们 看 一 下 每 个 特征 的 方差 。 
























































np.set_printoptions (precision=3, suppress=True) 
pca.explained variance_ ratio_ 


结果 array([ 0.854，0.145，0.001，0. ，0. ]) 表 明 第 一 个 特征 的 方差 对 数据 集 总 
体 方 差 的 贡献 率 为 85.4%。 第 二 个 为 14.5%。 第 四 个 特征 方差 贡献 率 不 可 能 高 于 1%o， 后 面 1553 个 
特征 则 更 少 。 


用 PCA 算 法 处 理 数据 一 个 不 好 的 地 方 在 于 ， 得 到 的 主 成 分 往往 是 其 他 几 个 特征 的 复杂 组 合 ， 
例如 ， 上 述 第 一 个 特征 就 是 通过 为 原始 数据 集 的 1558 个 特征 (虽然 很 多 特征 值 为 0 ) 分 别 乘 以 不 
同 权重 得 到 的 ， 前 三 个 特征 的 权重 依次 为 -0.092 、-0.995 和 -0.024。 经 过 某 种 组 合 得 到 的 特征 ， 
如 果 没 有 丰富 的 研究 经 验 ， 理 解 起 来 很 困难 。 


用 PCA 算 法 得 到 的 数据 创建 模型 ,不 仅 能 够 近似 地 表示 原始 数据 集 , 还 能 提升 分 类 任务 的 正 
确 率 。 


clf = DecisionTreeClassifier(random state=14) 
scores_reduced = cross_val_scorel(clf, Xd, y, scoring='accuracy') 


正确 率 为 0.9356， 比 起 只 用 所 有 的 原始 特征 效果 ( 稍 ) 好 。PCA 算 法 不 是 说 都 能 带 来 效果 上 
的 提升 ， 但 多 数 情况 是 有 好 处 的 。 















































我 们 这 里 用 PCA 算 法 来 减少 数据 集中 的 宛 余 特征 。 一 般 来 说 ,你 不 能 用 它 来 
解决 数据 挖掘 实验 的 过 拟 合 问题 。 原 因 是 PCA 没 有 将 类 别 考 虑 进去 。 更 佳 解决 方 
人 案 是 正则 化 ， 简 介 及 代码 请 见 http:/blog.datadive.net/selecting-good-features-part- 


li-linear-models-and-regularization/。 








PCA 算 法 的 为 一 个 优点 是 ,你 可 以 把 抽象 难民 的 数据 集 绘制 成 图 形 。 例如， 把 PCA 返 回 的 前 
两 个 特征 做 成 图 形 。 


首先 ， 告 诉 IPython 在 当前 笔记 本 作 图 ， 导 入 pyplot。 
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smatplotlib inline 
from matplotlib import pyplot as plt 


接着 ， 获 取 数 据 集 中 类 别 的 所 有 取 值 ( 只 有 两 个 : 是 广告 和 不 是 广告 )。 
classes = Set(y) 


指定 在 图 形 中 用 什么 颜色 表示 这 两 个 类 别 。 














colors = ['red', 'green'] 
用 zip 函 数 将 这 两 个 列表 组 合 起 来 ， 同 时 遍历 。 
for cur_class, color in zip(classes, colors): 


为 属于 当前 类 别 的 所 有 个 体 创建 遮 罩 层 。 





mask = (y == Cur_class) .values 


使 用 pyplot 的 scatter 函 数 显示 它们 的 位 置 。 图 中 的 x 和 y 的 值 为 前 两 个 特征 。 














plt.scatter (Xd[mask,0], Xd[mask,1], marker='o', color=color, 
label=int (cur_class)) 


最 后 ， 在 循环 的 外 面 ， 创 建 图 示 ， 显 示 图 像 ， 从 中 就 能 看 到 分 属 两 个 类 别 的 个 体 。 








plt.legend() 
plt.show!() 
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5.4 ”创建 自己 的 转换 器 
随 着 数据 集 复杂 程度 的 提高 和 类 型 的 变化 , 你 可 能 发 现 , 现成 的 特征 抽取 转换 器 不 能 满足 需 
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求 了 。 比 如 ， 第 7 章 从 图 这 种 数据 结构 里 抽取 特征 ， 就 需要 自己 编写 转换 器 。 


转换 髓 像 极 了 转换 函数 。 它 接收 一 种 形式 的 数据 ,输出 另外 一 种 形式 。 转 换 絮 可 以 用 训练 集 
训练 ， 训 练 得 到 的 参数 可 以 用 来 转换 测试 数据 集 。 


转换 器 的 API (应 用 编程 接口 ) 很 简单 。 它 接收 一 种 特定 格式 的 数据 ， 输 出 一 种 格式 的 数据 
( 可 能 与 输入 数据 的 格式 相同 ， 也 可 能 不 同 )。 别 的 就 没有 什么 特殊 要 求 了 。 





5.4.1 转换 器 API 

转换 器 有 两 个 关键 函数 。 
口 fit () : 接收 训练 数据 ， 设 置 内 部 参数 。 
D transform(): 转换 过 程 。 接 收 训练 数据 集 或 相同 格式 的 新 数据 集 。 
fit() 和 transform() 函数 的 输入 应 该 为 同一 种 数据 类 型 ， 但 是 transform() 可 以 返回 不 
同 的 数据 类 型 。 

我 们 现在 就 通过 实现 一 个 简单 的 转换 器 ， 来 说 明 下 API 的 使 用 。 转 换 器 接收 numoy 数 组 作为 
输入 ， 根 据 均值 将 其 离散 化 。 任 何 高 于 均值 的 特征 值 (训练 集中 ) 替换 为 1， 小 于 或 等 于 均值 的 


















































替换 为 0。 
我 们 曾经 用 pandas 对 Adult 数 据 集 做 过 类 似 的 转换 : 用 Hours-per-week 特 征 创建 了 
LongHours 特 征 ， 后 者 表示 每 周 工作 时 长 是 否 在 40 小 时 以 上 。 即 将 编写 的 转换 器 有 两 个 不 同 点 。 











第 一 ， 接 口 与 scikit-learn 接 口 一 致 ， 便 于 在 流水 线 中 使 用 。 第 二 ， 使 用 均值 而 不 是 固定 的 值 
(在 LongHours 例 子 中 使 用 40 作 为 将 特征 二 值 化 的 阔 值 )。 











5.4.2 ”实现 细节 
打开 分 析 Adult 数 据 集 时 用 到 的 笔记 本 文件 。 点 击 Cell 菜单 ， 选 择 Run All， 运 行 所 有 单元 格 。 


首先 ， 导 入 用 来 设置 API 的 TransformerMixin 类 。 Python 语言 (相对 于 Java 之 类 的 语言 ) 
没有 严格 的 接口 规范 ， 使 用 类 似 mixin 这 样 的 类 ，scikit-learn 就 会 把 我 们 封装 的 类 当 作 是 转 
换 器 。 我 们 还 需要 导入 用 来 判断 输入 类 型 是 否 合法 的 函数 ， 稍 后 就 会 用 到 。 


导入 所 需 模块 。 
































from sklearn.base import TransformerMixin 
from sklearn.utils import as_float_array 


接着 ,创建 继承 自 mixin 的 类 。 
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class MeanDiscrete(TransformerMixin): 


我 们 需要 定义 接口 规范 与 API 一 致 的 Eit 和 transform 函 数 。 在 fit 国 数 中 , 计算 出 数据 集 的 
均值 ， 用 内 部 变量 保存 该 值 。 函 数 声明 如 下 : 


def fit(self，X) : 


fit 了 因数 中 ， 要 确保 X 数 据 集 可 以 处 理 ， 我 们 用 到 了 as_float_array 图 数 〈 洽 试 对 X 进 行 转 
换 ， 例 如 x 是 浮 点 数列 表 时 就 可 以 对 其 进行 转换 ) 。 











xX = as_float_array (X) 


计算 数组 的 均值 ， 用 内 部 变量 保存 该 值 。 如 果 x 是 多 变量 数组 ， 数 组 self .mean 保 存 的 是 每 
个 特征 的 均值 。 


self.mean = X.mean (axis=0) 


f 让 函数 需要 返回 它 本 身 ， 确 保 在 转换 器 中 能 够 进行 链 式 调用 ( 例如 调用 ransformer. 
fit(X) .transform(X) )。 困 数 返 回 语句 如 下 : 














return self 


接着 ， 新 建 transform 阴 数 ， 参 数 类 型 与 fit 也 数 相 同 ,检查 下 输入 是 否 合法 。 








def transform(self, xX): 
X= a float _ array(X) 


输入 必须 是 numpy 数 组 (或 等 价 的 数据 结构 )， 除 此 之 外 ， 还 需要 检查 输入 的 数据 列 数 是 否 
一 致 。x 中 的 特征 数 应 该 与 训练 集中 的 特征 数 一 致 。 


assert X.shape[1] -= self.mean.shape[0] 
函数 最 后 返回 x 中 大 于 均值 的 数据 。 

return X > self.mean 
初始 化 一 个 实例 ， 用 它 来 对 x 数组 进行 转换 。 


mean_ discrete = MeanDiscrete() 
X_mean = mean discrete.fit transform(X) 
































5.4.3 ”单元 测试 
创建 完 函数 和 类 后 ,最 好 是 做 下 单元 测试 。 单 元 测试 , 顾名思义 ,就 是 对 代码 中 完成 一 个 功 
能 的 代码 单元 进行 测试 。 在 这 里 ， 测 试 下 转换 器 的 功能 是 否 符合 预期 。 
充分 的 测试 应 当 在 独立 于 现 有 代码 的 前 提 下 进行 。 为 保证 测试 的 有 效 性 , 最 好 使 用 男 一 种 编 
程 语言 或 方法 来 进行 相同 的 计算 。 我 们 这 里 使 用 Excel 创 建 数据 集 ， 再 计算 每 一 列 的 均值 ， 接 下 
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来 跟 程序 计算 结果 相 比 较 。 


单元 测试 应 该 短小 、 运 行 速度 快 。 因 此 ,我 们 选用 少量 数据 进行 测试 。 本 例 用 于 测试 的 数据 
集 保存 在 前 面 创建 的 xt 变 量 中 , 在 测试 中 会 重新 创建 这 个 数据 集 。 该 数据 集 两 个 特征 的 均值 分 别 
为 13.5 和 15.5。 


为 了 创建 单元 测试 ,我们 从 numpy 的 testing 模 块 中 导入 assert_array_equal 限 数 ， 它 用 来 
检测 两 个 数组 是 否 相 等 。 




















from numpy.testing import assert_array_equal 


接 下 来 , 创建 测试 函数 ， 注 意 文件 名 以 “test_” 开 头 ， 这 种 命名 方法 便于 工具 自动 查找 并 运 
行 测试 。 代 码 如 下 : 


def test_meandiscrete(): 


xX test = nparray (ll 0; 24; 
3 " 忆 
6 缀 
> 
Dp Rd 
5 玉芝 
18, 20 
2 
24, 26 
2 0 ) 








创建 转换 函数 实例 ， 用 测试 数据 进行 训练 。 


mean_ discrete = MeanDiscrete() 
mean_ discrete.fit (XxX test) 


通过 与 在 Excel 中 得 到 的 结果 比较 ， 检 查 内 部 均值 参数 是 否 正确 设置 。 




















assert_array_equal (mean discrete.mean, np.array ([13.5, 15.5])) 


运行 转换 函数 ， 创 建 被 转换 过 后 的 数据 集 。 准 备 好 测试 数据 ( 在 Excel 中 创建 的 )。 





X_transformed = mean discrete.transform(Xx test) 
XxX_expected = np.array ([[ 0 


fd ee A 





PPPPPOOOO.、: 





,1]]) 
最 后 ， 测 试 转换 需 返 回 结果 是 否 与 期 望 结 果 一 致 。 
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assert_array_equal (Xx_transformed, XxX_expected) 


调用 函数 ， 开 始 测试 ! 





test_meandiscrete() 


如 果 没 弄 错 ， 上 述 代码 应 该 没有 问题 ! 可 以 改动 测试 数据 ， 用 几 个 错误 值 ， 看 看 是 否 测 试 失 
败 。 要 让 测试 结果 通过 ， 记 得 再 改 回 正确 的 值 。 


如 果 要 进行 多 个 测试 ， 最 好 使 用 nose 测 试 框架 来 运行 测试 。 




















5.4.4 组 装 起 来 


现在 , 我 们 有 了 一 个 经 过 测试 的 转换 器 ， 拿 出 来 用 用 吧 。 用 上 我 们 之 前 学 到 的 知识 ,创建 一 
个 流水 线 ， 第 一 步 使 用 MeanDiscrete 转 换 器 ， 第 二 步 使 用 决策 树 分 类 器 ， 然 后 进行 交叉 检验 ， 


输出 结果 。 来 看 下 代码 : 


from sklearn.pipeline import Pipeline 
pipeline = Pipeline([('mean discrete', MeanDiscrete()), 
('classifier', DecisionTreeClassifier(random state=14))]) 
scores_mean discrete = cross_val_score(pipeline, XxX, y, 
scoring='accuracy') 
print ("Mean Discrete performance: 
{0:.3f}".format (scores._mean discrete.mean())) 


正确 率 为 0.803， 结 果 没 有 之 前 高 ， 对 于 简单 的 二 值 特征 而 言 还 算 不 错 。 



































5.5 小 结 
本 章 重 点 为 特征 和 转换 器 , 以 及 如 何 将 其 用 到 数据 挖掘 流水 线 中 。 我 们 探讨 了 什么 是 好 特征 ， 
以 及 如 何 用 算法 从 数据 集中 选取 最 佳 特征 。 然 而 ,创建 好 的 特征 比 起 科学 更 像 是 一 门 艺术 , 通常 


需要 领域 相关 的 知识 和 经 验 。 


我 们 创建 了 自己 的 转换 器 ,接口 与 scikit-learn 常 用 工具 接口 一 致 。 后 续 章 节 会 创建 更 多 
的 转换 器 ， 可 以 使 用 现 有 函数 对 其 进行 充分 测试 。 


下 一 章 将 介绍 文本 的 特征 抽取 方法 。 对 于 文本 而 言 ， 转 换 器 和 特征 类 型 都 不 少 , 但 它们 各 有 
利弊 。 











使 用 朴素 贝 叶 斯 进行 社会 
尹 体 挖掘 





























不 论 是 书 、 历 史 文 档 、 社 会 媒体 、 电 子 邮 件 还 是 其 他 以 文字 为 主 的 通信 方式 ， 都 包含 大 量 信 





息 。 从 文本 数据 集 抽取 特 生 


方法 [3 


本 章 介 绍 如 何 月 



































日 强大 却 出 奇 简 单 的 朴素 贝 叶 








斯 算法 消 








F， 用 于 分 类 不 是 件 容易 事 。 然 而 ， 人 们 还 是 总 结 出 了 文本 挖掘 的 通用 

















除 社会 媒体 用 语 的 歧义 。 朴 素 贝 叶 其 


『 算 


法 在 计算 用 于 分 类 的 概率 时 ,为 简化 计算 ,假定 各 特征 之 间 是 相互 独立 的 ,因此 名 字 中 含有 朴素 





二 字 。 它 稍 经 扩展 就 能 用 于 对 其 他 类 型 数据 集 进行 分 类 ， 
在 多 种 数据 集 上 表现 还 不 错 ， 可 作为 很 多 文本 挖 


本 章 主 要 涉及 妇 











0 下 内 容 。 


用 社交 网 络 的 API 下 载 数据 
用 于 处 理 文本 的 转换 需 














6.1 消 歧 








用 JSON 保 存 和 加 载 数 据 集 
用 NLIK 库 从 文本 中 抽取 特征 


口 
口 
口 朴素 贝 叶 斯 分 类 器 
口 
口 
口 用 F 值 评估 分 类 效果 























且 不 依赖 于 数值 特征 。 本 章 创建 的 模型 
加 研 究 的 基准 。 


文本 通常 被 称 为 无 结构 格式 ,虽然 它 包含 很 多 信息 , 但 是 却 没有 标题 、 特 定格 式 , 句法 松散 ， 
以 及 其 他 问题 ,导致 难 以 从 中 提取 有 用 信息 。 数 据 间 联 系 紧密 ,行文 中 经 常 相互 提 及 ,交叉 引用 

















现象 也 很 常见 

















我 们 通过 比较 书 中 的 信息 和 大 型 数据 
角色 、 主 题 、 场 所 等 大 量 信 |, 




















从 这 种 格式 中 提取 信息 难度 很 大 ! 








息 。 然 而 ， 只 有 去 读书 ,并 | 














库 中 的 信息 , 来 看 下 两 者 都 有 哪些 方面 的 不 同 。 书 中 有 


是 光 读 还 不 行 ， 更 重要 的 是 理解 后 才能 获 
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得 书 中 的 信息 。 而 位 于 服务 器 数据 库 的 数据 ， 每 一 列 都 有 名 字 , 都 有 指定 的 数据 类 型 。 所 有 的 信 
息 都 在 数据 库 中 ,解释 起 来 很 容易 。 描 述 数 据 类 型 、 含 义 的 信息 叫 作 元 数据 , 文本 中 缺乏 这 类 数 
据 。 书 中 的 目录 和 索引 虽 含有 部 分 元 数据 , 但 是 比 起 数据 库 对 于 数据 精确 的 定义 和 描述 ,这 点 元 
数据 实在 微不足道 。 


























他 透露 的 是 金融 相关 的 信息 还 是 环境 相关 的 (比如 河岸 ) ? 在 很 多 情况 下 ， 对 我 们 自己 来 说 ， 消 
除 歧义 比较 容易 ( 有 时 也 不 简单 )， 但 是 对 计算 机 来 说 难度 要 大 得 多 。 

本 章 将 探讨 如 何 区 别 Twitter 消 息 中 Python 的 意思 。Twitter 网 站 上 的 一 条 消息 叫 作 tweet， 它 最 
多 不 能 超过 140 个 字符 。 这 也 就 表明 上 下 文 信息 较 少 。 此 外 ,没有 多 少 元 数据 ， 虽 然 “#” 号 经 常 
用 来 表示 消息 的 主题 。 


当 人 们 提 及 Python 时 ， 他 们 谈论 的 可 能 是 : 

















口 编程 语言 Python 
口 经 典 喜 剧 剧团 Monty Python? 


口 蟒蛇 


可 能 还 有 很 多 其 他 东西 也 叫 Python。 我 们 实验 的 目的 是 根据 消息 的 内 容 , 判 断 消息 中 的 Python 
Ls 1 五 















































6.1.1 从 社交 网 站 下 载 数据 

接 下 来 ， 从 Twitter 网 站 下 载 一 些 语 料 ， 从 中 剔除 垃圾 信息 后 ， 用 于 分 类 任务 。Twitter 提 供 了 
从 他 们 服务 器 采集 信息 的 强大 API, 小 规模 使 用 免费 , 但 如 果 你 打算 将 Twitter 数据 用 于 商业 用 途 ， 
请 了 解 下 相关 规定 。 

首先 ， 你 需要 一 个 Twitter 账 号 (免费 )。 如 果 没 有 的 话 ， 请 访问 http:/twitter.com 进 行 注 册 。 

每 分 钟 的 请 求 数 不 能 超过 Twitter 所 规定 的 上 限 。 写 作 本 书 时 ， 上 限 为 每 小 时 180 次 。 这 个 规 
定 不 好 遵照 执行 ， 因 此 ， 强 烈 建 议 使 用 现成 的 库 与 Twitter 的 API 进 行 通信 。 














访问 Twitter 数据 时 需要 提供 密 钥 。 打 开 http:/twittercom， 登 录 Twitter。 


登录 后 ， 访 问 https:/apps.twitter com/， 点 击 Create New App ( 创建 新 应 用 )。 





J@ 在 英语 中 ，bank 既 可 以 指 银行 ， 也 可 以 指 河岸 。 一 一 译 者 注 
@@ 编程 语言 Python 的 名 字 正 是 来 自 于 这 个 英国 喜剧 剧团 的 名 字 ，Guido van Rossum 很 喜欢 该 剧团 的 演出 ， 于 是 把 他 
创立 的 编程 语言 命名 为 Python。 一 一 译 者 注 
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指定 新 应 用 的 名 称 ， 填 好 描述 及 要 在 哪个 网 站 中 使 用 。 如 果 不 打 算 在 网 站 中 使 用 ， 请 在 
Website 文 本 框 中 随意 输入 些 内 容 ， 确 保 提 交 时 表单 能 通过 验证 。Callback URL 文 本 框 空 着 不 
填 一 一 我 们 用 不 到 。 在 下 面 的 开发 者 协议 处 选中 Yes, I agree 前 面 的 复 选 框 (如 果 你 确实 同意 )， 
点 击 Create your Twitter application 。 


创建 新 应 用 后 ， 先 别 急 着 关 掉 当前 页 面 一 一 后 面 会 用 到 页 面 上 的 access keys ( 访问 密 钥 )。 接 


下 来 ， 需 要 找 一 个 与 Twitter 通信 的 Python 第 三 方 库 。 选 择 有 很 多 ， 我 喜欢 用 Twitter 官方 提供 的 
twitter 库 。 





























六 注 


如 果 你 习惯 用 pip 安 装 第 三 方 包 ， 可 以 使 用 pip3 install twitter 安 装 
\% 、 twitter 库 。 如 果 你 用 的 是 其 他 系统 ， 安 装 方法 请 参考 文档 https://github.com/ 
sixohsix/twitter。 














创建 新 的 IPython 笔 记 本 文件 来 编写 下 载 Twitter 消息 的 代码 。 本 章 将 创建 几 个 不 同 的 笔记 本 文 
件 ， 用 于 不 同 的 处 理 任务 ， 所 以 最 好 是 新 建 一 个 文件 夹 ， 把 它们 放 到 一 起 。 第 一 个 笔记 本 文件 
ch6_get_twitter 专 门 用 来 下 载 新 的 Twitter 语 料 。 


首先 ， 导 人 twitter 库 , 设置 授权 令 牌 。 刚 才 没 让 你 关闭 的 那 一 页 的 Keys and Access Tokens 
( 密 钥 和 访问 令 牌 ) 选项 卡 下 ， 有 consumer key ( 用 户 密 钥 ) 和 consumer secret ( 请 求 令 牌 )。 点 击 
在 同一 页 的 Create my access token ( 创建 我 的 访问 令 牌 ) 按钮 ， 获 取 访 问 令 牌 。 用 你 得 到 的 密 钥 
和 令 牌 替换 下 面 代码 中 的 占 位 符 。 

import twitter 

Consumer_key = "<Your Consumer Key Here>" 

Consumer_secret = "<Your Consumer Secret Here>" 

access_token = "<Your Access Token Here>" 

access_token secret = "<Your Access Token Secret Here>" 


authorization = twitter.OAuth(access_token, access_token_ secret, 
Consumer_key, consumer_secret) 


我 们 将 用 twitter 库 提 供 的 搜索 函数 ( searcn ) 查找 包含 单词 “Python” 的 消息 。 创 建 阅 
读 右 对 象 ， 提 供 授 权 信息 连接 到 Twitter，, 然后 使 用 阅读 右 对 象 进行 搜索 。 在 笔记 本 文件 中 ， 指 
定 消 息 的 存储 位 置 。 

import os 


output_filename = os.path.join(os.path.expanduser ("~"), 
"Data", "twitter", "python tweets.json") 


保存 数据 时 要 用 到 json 库 。 
import json 


接着 ,创建 用 来 从 Twitter 网 站 读 取 数据 的 对 象 ， 指 定 授权 信息 ， 需 要 用 到 前 面 创建 的 授权 
对 象 。 
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七 = twitter.Twitter(auth=authorization) 


打开 输出 文件 ， 等 待 写 入 数据 ， 写 入 模式 指定 为 “a”， 这样 每 次 在 文件 末尾 追加 新 数据 。 使 
用 建立 好 的 连接 ， 搜 索 单 词 “Python”， 对 于 search 方 法 返回 的 数据 ， 我 们 只 需要 “statuses” 部 
分 。 下 面 代码 获取 到 Twitter 消 息 ， 使 用 json 库 的 dqump 函 数 将 其 转换 为 字符 串 形式 后 ， 写 和 人 到 输 
出 文件 中 。 写 完 每 条 消息 后 ， 再 写 一 行 空 行 ， 便 于 把 每 条 消息 区 分 开 来 。 











with open(output_filename, 'a') as output_file: 
search_ results = t.search.tweets(q="python", count=100)['statuses'] 
for tweet in search results: 
if 'text' in tweet: 
output_file.write(json.dumps (tweet)) 
output_file.write("\n\n") 


上 述 循环 中 , 还 检测 了 消息 是 否 包 括 “text” 键 。 并 不 是 Twitter 返回 的 所 有 对 象 都 是 消息 (有 
些 可 能 是 用 来 删除 消息 或 其 他 内 容 的 动作 )。 消 息 对 象 与 其 他 对 象 的 关键 不 同 在 于 消息 对 象 中 含 
有 键 “text”， 这 也 正 是 我 们 用 if 语句 进行 检测 的 。 


上 述 代码 运行 几 分 钟 后 ， 输 出 文件 中 就 能 有 100 条 消息 。 






































你 也 可 以 让 它 多 运行 几 分 钟 ， 抓 取 更 多 的 消息 ， 需 要 注意 的 是 ， 如 果 Twitter 
用 户 没有 发 布 新 消息 的 话 ， 短 时 间 内 多 次 抓 取 ， 得 到 的 消息 很 可 能 会 有 重复 的 。 


6.1.2 ”加 载 数据 集 并 对 其 分 类 


完成 消息 采集 后 , 我 们 拿 到 了 原始 数据 集 , 对 它 里 面 的 消息 逐条 标注 后 , 才能 用 于 分 类 任务 。 
在 笔记 本 文件 中 创建 一 个 表单 ， 方 便 标注 。 


消息 存储 格式 近似 于 JSON。JSON 格 式 不 会 对 数据 强加 过 多 用 于 表示 结构 的 信息 ， 可 以 直接 
用 JavaScript (JSON 名 字 也 就 是 这 么 来 的 ，JavaScript Object Notation，JavaScript 对 象 表示 法 ) 语 
言 读 取 。JSON 定 义 了 诸如 数字 、 字 符 串 、 数 组 、 字 上 典 等 基本 对 象 ， 适 合 存 储 包含 非 数 值 类 型 的 
数据 。 如 果 数 据 集 全 都 是 数值 类 型 ,为 了 节省 空间 和 时 间 ， 最 好 使 用 类 似 于 numpy 和 矩阵 这 样 的 格 
式 来 存储 。 

我 们 的 数据 集 格式 和 真正 的 JSON 对 象 的 关键 区 别 在 于 ， 每 两 条 消息 之 间 有 一 行 空 行 。 这 样 
做 的 目的 是 ， 防 止 新 追加 的 消息 和 前 面 的 消息 混在 一 起 〈 在 真正 的 JSON 格 式 中 ， 追 加 数据 没 这 
么 简单 )。 我 们 的 数据 集中 ， 每 两 条 用 JSON 字 符 串 表示 的 消息 之 间 有 一 行 空 行 。 


我 们 可 以 使 用 json 库 解析 数据 集 , 但 是 要 先 根 据 空 行 把 读 进来 的 文件 拆 分 ( split 方 法 ) 成 
一 个 列表 ， 得 到 真正 的 消息 对 象 。 


新 建 一 个 笔记 本 文件 〈 我 把 它 命名 为 ch6 label twitter )， 指 定数 据 集 的 名 称 。 该 名 称 即 为 上 
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节 指 定 的 输出 文件 的 名 字 。 我 们 还 指定 用 于 存放 每 条 消息 所 属 类 别 的 文件 名 。 代 码 如 下 : 


import os 


input_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python tweets.json") 
labels_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python classes.json") 








上 面 已 经 提 到 过 ， 我 们 要 使 用 json 库 ， 先 来 导入 它 。 
import json 


创建 列表 ， 用 于 存储 从 文件 中 读 进来 的 每 条 消息 。 





tweets = [ 


遍历 文件 中 的 每 一 行 数据 。 我 们 对 不 包含 消息 的 空 行 ( 它们 用 于 分 隔 消息 ) 不 感 兴趣 , 因此 ， 
检测 当前 行 (去除 任 意 空白 字符 后 的 ) 长 度 是 否 为 0。 如 果 为 0， 和 忽略 当前 行 ， 继 续 判 断 下 一 行 。 
如 果 不 为 0， 使 用 json.1loadqs (将 JSON 字 符 串 转换 为 Python 对 象 ) 方法 加 载 消息 ， 将 它 添 加 到 
tweets 列 表 中 。 代 码 如 下 : 

















with open(input_filename) as inf: 
for line in inf: 
if len(line.strip()) == 0: 
continue 
tweets.append(json.loads (line)) 


我 们 现在 想 知 道 一 条 消息 是 否 和 我 们 相关 ( 在 这 里 ， 相 关 表 示 指 的 是 编程 语言 Python )。 接 
下 来 ,在 笔记 本 文件 中 能 入 HTML 代 码 ， 实 现 JavaScript 和 Python 之 间 的 通信 ,用 网 页 形式 展示 消 
息 ， 便 于 标注 。 


我 们 要 实现 以 下 功能 ， 向 用 户 ( 你 ) 展示 一 条 消息 ， 要 求 用 户 输入 类 别 : 相关 还 是 不 相关 。 
旦 序 保存 输入 结果 ， 继 续 展 示 下 一 条 待 标注 的 消息 。 


首先 , 创建 用 于 存储 类 别 (标注 结果 ) 的 列表 。 不 管 消息 是 不 是 与 编程 语言 Python 相 关 ， 我 
们 都 保存 它 的 类 别 ， 分 类 器 从 这 两 类 数据 中 学 习 如 何 预 测 一 条 消息 的 类 别 。 


我 们 还 要 检测 是 不 是 有 部 分 消息 已 经 标注 过 类 别 了 , 有 的 话 就 加 载 这 些 类 别 。 如 果 你 标注 到 
一 半 , 临时 有 事 要 关闭 笔记 本 文件 , 有 了 该 功能 , 再 打开 时 , 代码 就 会 加 载 已 有 类 别 。 一般 来 说 ， 
对 于 类 似 的 任务 ,考虑 如 何 保存 中 间 结 果 很 有 必要 。 这 样 即 使 计算 机 中 途 死 机 ,努力 一 个 小 时 得 
来 的 工作 成 果 也 不 至 于 全 部 丢失 ! 代码 如 下 : 

labels = [] 

if os.path.exists(labels_filename): 


with open(labels_filename) as inf: 
labels = json.load (inf) 


接 下 来 , 创建 一 个 简单 的 函数 ， 用 来 返回 下 一 条 需要 标注 的 消息 。 我们 找到 并 返回 第 一 条 没 
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有 标注 类 别 的 消息 即 可 。 代 码 如 下 。 


def get_next_tweet (): 
return tweet_sample[len(labels)]['text'] 


我 们 实验 的 下 一 个 步骤 是 收集 用 户 ( 你 ! ) 对 每 条 消息 中 的 “Python” 是 否 

归 人 指 的 是 编程 语言 的 看 法 。 在 笔记 本 文件 中 ,， 仅 使 用 Python， 无 法 通过 直接 与 用 户 

> 进行 交互 的 方式 来 收集 他 们 的 反馈 。 因此 , 我 们 只 好 使 用 一 点 JavaScript 和 HTML 
代码 来 获取 用 户 输 入 。 





接 下 来 ， 在 笔记 本 中 创建 JavaScript 程 序 来 收集 输入 。 可 以 借助 魔术 方法 (magic function ) 
在 笔记 本 中 直接 般 和 人 HTML 和 JavaScript 代 码 等 。 在 笔记 本 的 新 格子 中 输入 如 下 代码 。 





S$%Sjavascript 


这 样 就 表示 下 面 为 JavaScript 代 码 ， 因 此 , 大 括号 就 要 登场 了 。 别 担心 , 我 们 很 快 就 会 再 回 到 
Python 的 。 请 注意 下 面 JavaScript 代 码 必 须 与 魔术 方法 ssjavascript 在 同一 格子 里 。 


从 下 面 定义 的 第 一 个 JavaScript 函 数 , 就 能 看 到 在 笔记 本 中 , 实现 JavaScript 和 Python 之 间 的 通 
信和 是 多 么 容易 。 这 个 函数 的 功能 是 向 labels 列 表 (Python 代码 中 ) 添加 一 条 消息 所 属 的 类 别 。 
具体 做 法 是 先 加 载 了 Python 内 核 (kernel ) 对 象 ， 再 用 它 来 执行 Python 命令 。 代 码 如 下 : 

function set_label (label){ 

Var Kernel = IPython.notebook.kernel; 


kernel.execute("labels.append(" + label + ")"); 
load_next_tweet (); 






































} 

函数 最 后 调用 1oagd_next_tweet 捕 数 ， 加 载 下 一 条 未 标注 的 消息 。 load_next_tweet 这 个 
JavaScript 函 数 内 部 执行 Python 代码 的 原理 跟 上 面 所 讲 的 相同 : 用 加 载 的 了 Python 内 核 来 执行 Python 
命令 ( 调用 前 面 定 义 的 get_nex t_tweet 函数 )s 

然而 ， 获 取 并 展示 消息 有 点 困难 ， 需 要 用 到 回调 函数 ,返回 数据 时 调用 该 函数 。 回 调 函 数 的 
定义 方法 超出 了 本 书 的 范围 ,如 果 你 对 更 高 级 的 JavaScript/Python 交 互 方法 感 兴 趣 , 请 参考 IPython 
文档 。 

代码 如 下 : 




















function load next_tweet (){ 
Var code_input = "get_ next_tweet ()"; 
Var kernel = IPython.notebook.kernel; 
var callbacks = { 'iopub' : {'output' : handle output}}; 
kernel .execute(code_ input, callbacks, {silent:false}); 
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回调 函数 叫 作 handle_outpur， 下 面 就 来 创建 它 。 当 kernel .execute () 调用 的 Python 郴 
数 返 回 结果 后 ， 就 会 调用 回调 函数 。 如 上 所 述 ， 回 调 函 数 的 详细 内 容 不 在 本 书 讲解 范围 之 列 ， 我 
们 这 里 用 它 来 处 理 返 回 的 纯 文本 格式 数据 ， 把 这 些 数据 置 于 表单 的 #4tweet_text div 中 展示 ， 
我 们 随后 会 编写 相关 HTML 代 码 。 回 调 函 数 代码 如 下 : 












































function handle _ output (out){ 
Var res = out.content.datal["text/plain"]; 
$s("divi#tweet_text") .html (res); 

} 


HTML 代 码 中 , 最 外 层 是 id 为 Ltweetbox 的 div, 它 里 面包 着 id 为 Ltweet_text 的 giv 元素 用 于 
显示 下 一 条 待 标注 的 消息 。 我 们 还 创建 文本 框 , 捕获 输入 的 按键 ( 否则, 笔记 本 程序 将 会 捕获 它 ， 
JavaScript 也 就 无 法 获得 用 户 的 输入 )。 这 样 我 们 就 可 以 用 键盘 来 设置 消息 的 类 别 为 1 或 0， 比 起 用 
鼠标 点 击 按钮 进行 选择 要 快 一 一 假如 我 们 至 少 需要 标注 100 条 消息 。 

运行 JavaScript 代 码 所 在 的 格子 ， 就 会 在 页 面 中 组 入 JavaScript 人 代码， 虽然 在 结果 区 域 看 不 到 
任何 变化 。 

接着 , 我 们 来 使 用 另 一 个 魔术 方法 sshtml 。 训 无 疑问 , 它 是 用 来 直接 在 笔记 本 中 和 能 入 HTML 
代码 。 在 新 格子 中 输入 如 下 代码 。 

S$%Shtml 

接 下 来 ， 在 这 个 格子 中 输入 HTML 代 码 和 几 行 JavaScript 代 码 。 首 先 ,定义 一 个 aiv 元 素 , 用 
来 显示 当前 要 标注 的 消息 。 我 还 添加 了 几 行 标注 说 明 。 接 着 ,创建 id 为 Lweet_text 的 div 元 素 ， 
用 来 显示 下 一 条 待 标注 的 消息 。 如 前 所 述 ， 我 们 还 需要 创建 文本 框 用 来 捕获 按键 。 代 码 如 下 : 






































亚 


























<div name="tweetbox"> 
Instructions: Click in textbox. Enter a 1 if the tweet is 
relevant, enter 0 otherwise.<br> 
Tweet: <div id="tweet_ text" value="text"></div><br> 
<input type=text id="capture"></input><br> 
</div> 


先 不 要 运行 这 个 格子 ! 


创建 完 表单 后 , 我 们 来 编写 捕获 键盘 按键 的 JavaScript 代 码 , 这 段 脚本 须 写 到 上 面 HTML 代 码 
的 后 面 ， 因 为 #tweet_text 元 素 在 HTML 代 码 运行 前 在 页 面 上 还 不 存在 。 这 里 要 用 到 jQuery 库 
(JIPython 笔 记 本 文件 使 用 了 该 库 ， 无 需 再 次 引入 ) 的 一 个 函数 ， 当 在 #capture 文 本 框 元 素 上 发 
生 按 键 事件 时 ， 调 用 指定 的 函数 。 然 而 ， 请 注意 ， 这 个 格子 使 用 的 魔术 方法 是 sshtml ， 在 这 里 
面 写 JavaScript 代 码 ， 需 要 将 其 放 到 <script> 标 签 中 。 


我 们 只 关注 按键 0 或 1 ,因为 消息 只 可 能 属于 这 两 个 类 别 。 通 过 检测 存储 在 e.which 中 的 ASCII 
码 值 ， 就 能 确定 到 底 是 哪个 键 被 按 下 了 。 如 果 用 户 按 下 0 或 1, 我 们 把 类 别 添加 到 labels 列 表 中 ， 
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然后 清空 文本 框 的 值 。 代 码 如 下 : 





<script> 
$s ("input#capture") .keypress (function(e) { 
if(e.which == 48) { 

set_label (0); 

$s ("input#capture") .val (""); 
}else if (e.which == 49){ 

set_label (1); 

$s ("input#capture") .val (""); 

} 

小字 


忽略 其 他 按键 。 


下 面 是 本 章 最 后 几 行 JavaScript 代 码 (我 向 你 保证 )， 我 们 调用 loaq_next_tweet () 函数 。 
设置 第 一 条 待 标注 的 消息 ， 闭 合 script 标 签 。 代 码 如 下 : 


























load_next_tweet (); 
</script> 


在 笔记 本 中 , 运行 该 格子 , 页 面 上 会 出 现 HTML 文 本 框 , 旁边 就 是 第 一 条 消息 。 点 击 文 本 框 


如 果 该 消息 与 我 们 相关 ( 消息 中 的 Python 指 的 是 编程 语言 )， 输入 1; 反之 , 输入 0。 完 成 后 ， 加 
载 下 一 条 消息 。 输 入 类 别 ， 接 着 加 载 下 一 条 。 重 复 以 上 过 程 ， 直 到 标注 完 所 有 数据 。 


完成 标注 后 ， 把 所 有 的 类 别 信息 输出 到 前 面 定 义 好 的 类 别 文件 中 。 


with open(labels_filename, 'w') as outf: 
json.dump (labels, outf) 


即使 没有 完成 标注 ， 也 可 以 运行 上 述 代 码 , 保存 标注 过 的 类 别 。 再 次 运行 笔记 本 将 会 加 载 你 
没有 标注 的 消息 ， 这 样 你 就 能 继续 标注 。 
标注 消息 要 花 点 时 间 ! 消息 很 多 的 话 ， 更 是 如 此 。 如 果 你 为 了 赶 时 间 ， 可 以 下 载 我 标注 好 的 





























6.1.3 ”Twitter 数据 集 重建 


数据 挖掘 过 程 会 用 到 很 多 变量 , 它们 不 仅 出 现在 挖 气 算法 里 , 数据 采集 等 过 程 中 也 少不了 它 
们 的 身影 。 重 现实 验 结果 很 重要 ， 因 为 它 有 助 于 验证 或 改善 实验 效果 。” 





























J 这 一 段 话 ， 照 直 翻 译 过 来 ， 总 觉得 缺 了 点 什么 ， 推 测 作者 想 要 表达 的 意思 是 控制 每 次 实验 中 变量 的 取 值 ， 确 保 实 
验 结果 的 可 比较 性 。 一 一 译 者 注 
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8 
本 算法 X 在 一 个 数据 集 上 取得 80% 的 正确 率 ， 算 法 Y 在 另 一 个 数据 集 上 取得 
Q 90% 的 正确 率 ， 不 能 说 明 算 法 Y 优 于 X。 只 有 在 相同 的 测试 集 上 ， 且 在 相同 的 条 

件 下 进行 测试 ， 才 能 比较 算法 的 优 劣 。 








你 用 上 面 的 代码 采集 到 的 数据 集 与 我 的 不 同 。 主 要 原因 在 于 , 采集 时 间 不 同 ，Twitter 返 回 的 
搜索 结果 也 就 不 同 。 此 外 ,标注 结果 也 可 能 会 有 所 差异 。 虽然 有 些 消 息 显然 是 与 编程 语言 Python 
有 关 , 但 也 不 乏 模 棱 两 可 的 情况 ， 比 如 用 我 不 懂 的 外 语 发 布 的 消息 , 我 给 出 的 标注 结果 就 可 能 
误 。 对 于 这 种 情况 ，Twitter 提 供 了 设置 语言 种 类 的 接口 , 但 即使 使 用 该 接口 ， 返 回 的 消息 也 不 一 
定 全 都 是 你 预先 指定 的 语言 。 

出 于 这 么 多 原因 ， 对 于 从 社交 网 站 采集 到 的 数据 集 重 复 进 行 相同 的 实验 困难 重重 ，Twitter 
也 不 例外 。 此 外 ，Twitter 明 确 禁止 直接 分 享 数据 集 。 

解决 方法 之 一 是 只 分 享 消息 编号 , 它 是 可 以 自由 传播 的 。 本 节 首 先 创 建 可 以 自由 分 享 的 消息 
编号 数据 集 。 然 后 ， 再 来 看 下 如 何 根据 编号 下 载 消息 ， 重 建 先前 的 数据 集 。 


首先 , 我 们 得 把 现 有 消息 的 编号 及 其 类 别 保存 下 来 。 创建 一 个 新 的 笔记 本 文件 ， 指定 接 下 来 
要 用 到 的 几 个 文件 名 。 代 码 跟 之 前 类 似 ， 只 不 过 多 了 一 个 用 来 保存 消息 编号 及 其 类 别 的 文件 。 代 
但 如 下 : 


import os 






































































































































input_filename = os.path.join(os.path.expanduser ("~"), "Data", 

"twitter", "python tweets.json") 

labels_filename = os.path.join(os.path.expanduser ("~"), "Data", 

"twitter", "python classes.json") 

replicable dataset = os.path.join(os.path.expanduser ("~"), 
"Data", "twitter", "replicable dataset.json") 


I 





加 载 消 息 和 类 别 ， 就 跟 我 们 在 上 一 个 笔记 本 文件 中 做 的 那 相 


O 


import json 
tweets = [] 
with open(input_filename) as inf: 
fOr Tine, Tn vinfs 
if len(line.strip()) == 0: 
continue 
tweets.append(json.loads (line)) 
if os.path.exists(labels_ filename): 
with open(classes_filename) as inf: 
labels = json.load (inf) 


同时 遍历 所 有 的 消息 及 消息 所 属 的 类 别 ， 创 建新 数据 集 ， 将 其 保存 到 列表 中 。 


dataset = [(tweet['id'], label) for tweet, label in zip (tweets, 
labels)] 
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最 后 ， 把 结果 保存 到 文件 中 。 


with open(replicable dataset, 'w') as outf: 
json.dump (dataset, outf) 


有 了 消息 的 编号 和 类 别 , 我 们 就 可 以 重建 数据 集 。 如 果 你 想 重 建 我 在 本 章 使 用 的 数据 集 ， 所 
需 代码 请 见 本 书 配套 代码 包 。 

加 载 之 前 的 数据 集 不 难 , 但 是 要 花 些 时 间 。 新 建 一 个 笔记 本 文件 , 像 之 前 那样 指定 好 用 于 存 
储 数据 集 、 消 息 类 别 和 消息 编号 的 文件 。 我 调整 了 下 文件 名 ， 防 止 你 覆盖 掉 之 前 采集 的 数据 集 ， 
文件 名 你 可 以 随意 起 ， 不 必 跟 我 的 一 样 。 代 码 如 下 : 























import os 

tweet_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "replicable python tweets.json") 

labels_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "replicable python classes.json") 

replicable dataset = os.path.joinl(os.path.expanduser ("~"), 
"Data", "twitter", "replicable dataset.json") 


使 用 JSON 从 文件 中 加 载 消 息 编 号 及 类 别 数据 。 





import json 
with open(replicable dataset) as inf: 
tweet_ids = json.load(inf) 


保存 所 有 消息 的 类 别 很 容易 。 遍 历数 据 集 ,抽取 编号 ， 用 两 行 代码 就 能 搞定 ( 打开 文件 和 保 
存 消息 )。 然 而 ， 我 们 无 法 确定 之 后 能 再 次 绪 取 到 所 有 消息 ( 例如， 上 次 采集 后 ， 有 些 消息 被 设 
置 为 隐私 )， 因 此 类 别 和 消息 可 能 就 无 法 对 应 。 


为 了 举例 说 明 , 我 在 采集 数据 后 的 第 一 天 尝试 重建 数据 集 , 却 发 现 有 两 条 消息 已 经 从 线 上 消 
失 《〈 可 能 被 用 户 删除 或 设置 为 隐私 )。 因 此 ， 只 输出 我 们 实际 能 用 到 的 类 别 就 显得 尤为 重要 。 具 
体 做 法 是 ， 首 先 ， 创 建 actual_labels 列 表 存 储 我 们 能 够 再 次 从 Twitter 网 站 获取 到 的 消息 的 类 
别 。 然 后 ， 创 建 字典 ， 为 消息 的 编号 和 类 别 建立 起 映射 关系 。 


代码 如 下 : 


actual_labels 
label_mapping 


接 下 来 ,用 twitter 库 根据 消息 编号 采集 消息 。 这 可 能 要 花 点 时 间 。 导 入 前 面 用 过 的 twitter 
库 , 创建 授权 令 牌 用 它 来 初始 化 Lewitter 对 象 。 





















































[] 
dict (tweet_ids) 




















import twitter 


Consumer_key = "<Your Consumer Key Here>" 
CONSUMNeE SeGret Ss "Your CoNnsumer Secret Here>” 
access_token = "<Your Access Token Here>" 


access_token_secret = "<Your Access Token Secret Here>" 
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authorization = twitter.OAuth(access_token，access_token_secret， 
Consumer_key, consumer_secret) 
t = twitter.Twitter (auth=authorization) 


遍历 并 抽取 所 有 的 消息 编号 。 





all_ids = [tweet_iqd for tweet_id, label in tweet_ids] 
然后 ， 打 开 输 出 文件 ， 保 存 消 息 。 
with open(tweets_filename, 'a') as output_file: 


Twitter API 人 允许 我 们 一 次 只 能 获取 100 条 消息 。 因 此 ， 每 次 遍历 100 条 消息 。 





for start_index in range(0, len(tweet_ ids), 100): 


把 这 一 批 次 的 100 个 编号 用 逗号 连接 起 来 ， 便 于 下 面 使 用 Twitter 的 API 根 据 编号 查找 消息 。 
































TQ. StELng. eS. VA JOLn(ete(L) fOr HY 用 放 
all_igds[start_ index:start_index+100]) 


接着 ， 调 用 Twitter 定义 的 statuses/lookup 方 法 ， 传 人 一 批 消 息 编 号 (已 转换 为 字符 串 )， 
以 采集 这 些 消息 。 























search results = t.statuses.lookup(_id=id_ string) 
我 们 把 返回 结果 中 的 每 一 条 消息 ， 按 照 之 前 采集 数据 集 的 做 法 ， 将 它们 依次 保存 到 文件 中 。 


for tweet in search results: 
if 'text' in tweet: 
output_file.write(json.dumps (tweet)) 
output_file.write("\n\n") 


最 后 一 步 ( 仍然 属于 if 模 块 )， 还 需要 保存 当前 遍历 到 的 消息 的 类 别 。 获 取消 息 类 别 要 用 到 
之 前 创建 的 label_mapping 字 典 ， 根据 消 息 编号 查找 即 可 。 代 码 如 下 : 














actual_labels.append(label mapping[tweet['id']]) 


运行 上 述 代码 , 采集 所 有 消息 。 如 果 你 的 数据 集 很 大 ， 花 费时 间 相 应 较 多 一 Twitter 会 限制 
请 求 的 频次 。 最 后 一 步 ， 保 存 actual_labels 到 类 别 文件 "里 。 











with open(labels_filename, 'w') as outf: 
json.dump (actual_labels, outf) 


6.2 文本 转换 器 
数据 集 创建 好 后 ， 怎 样 在 它 上 面 施展 数据 挖掘 的 威力 呢 ? 






































中 再 次 提醒 下 它 里 面 存 放 的 是 能 够 再 次 抓 取 到 的 消息 的 类 别 。 一 一 译 者 注 
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文本 数据 集 包 括 图 书 、 文 章 、 网 站 、 手 稿 、 代 码 以 及 其 他 形式 的 文本 。 我 们 目前 所 见 过 的 所 
有 算法 不 是 用 来 处 理 数值 型 就 是 类 别 型 特征 ， 怎 样 才能 把 文本 转换 成 算法 可 以 处 理 的 形式 ? 


多 种 测量 方法 能 够 帮 上 人 忙 。 比 如 , 平均 词 长 和 平均 句 长 可 用 来 预测 文本 的 可 读 性 。 除 此 之 外 ， 
还 有 很 多 其 他 类 型 的 特征 ， 比 如 我 们 接 下 来 要 用 到 的 单词 是 否 出 现 ( word occurrence )。 



































6.2.1 词 袋 


一 种 最 简单 却 非常 高 效 的 模型 就 是 只 统计 数据 集中 每 个 单词 的 出 现 次 数 。 我 们 来 创建 一 个 矩 
阵 ， 每 一 行 表示 数据 集中 的 一 篇 文档 ， 每 一 列 代 表 一 个 词 。 和 矩阵 中 的 每 一 项 为 某 个 词 在 文档 中 的 
出 现 次 数 。 











下 面 这 段 文字 节选 自 托 尔 金 ( 械 R.R. Tolkien ) 的 《指环 王 》 
Three Rings for the Elven-kings under the sky, 
Seven for the Dwarf-lords in halls of stone, 
Nine for Mortal Men, doomed to die, 
One for the Dark Lord on his dark throne 
In the Land of Mordor where the Shadows lie. 
One Ring to rule them all, One Ring to find them, 
One Ring to bring them all and in the darkness bind them. 
In the Land of Mordor where the Shadows lie. 
—J.R.R. Tolkien’'s epigraph to The Lord of The Rings 
单词 the 在 引文 中 出 现 了 9 次 ， 单词 in 、for、to 和 one 各 出 现 了 4 次 。 单 词 ring 和 of 各 出 现 3 次 。 
从 中 选取 几 组 数据 ， 创 建 一 个 简单 的 数据 集 。 





ttt 


单词 the one ring to 
频次 9 4 3 4 


可 以 用 counter 方 法 统计 列表 中 各 字符 串 出 现 次 数 。 统计 单词 时 , 通常 将 所 有 字母 转换 为 小 
因此 定义 字符 串 时 顺便 把 它 转换 为 小 写 形式 。 代 码 如 下 : 
s = """Three Rings for the Elven-kings under the sky, 


Seven for the Dwarf-lords in halls of stone, 
Nine for Mortal Men, doomed to die, 


























灿 
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One for the Dark 


Lord on his dark throne 


In the Land of Mordor where the Shadows lie. 


One Ring to rule 


them all, One Ring to find them, 


One Ring to bring them all and in the darkness bingd them. 
In the Land of Mordor where the Shadows lie. """.lower!() 
WoOrds. Sc SSBlLLt() 


from collections 


import Counter 


C = Counter (words) 


c.most_common (5) 输 出 出 现 次 数 最 多 的 前 5 个 词 , 竟然 有 4 个 词 并 列 第 二 , 多 输出 几 个 就 能 


看 出 词 频 的 差异 了 。 














词 袋 模型 主要 分 为 以 下 三 种 : 第 一 种 像 上 面 这 样 使 用 词语 实际 出 现 次 数 作为 词 频 。 缺点 是 当 








文档 长 度 差异 明显 时 , 词 频 差距 会 非常 大 。 第 二 种 是 使 用 归 一 化 后 的 词 频 ,每 篇 文档 中 所 有 词语 
的 词 频 之 和 为 1。 这 种 做 法 优势 明显 ， 它 规避 了 文档 长 度 对 词 频 的 影响 。 第 三 种 ， 直 接 使 用 二 值 








特征 来 表示 一 一 单词 在 











文档 中 出 现 值 为 1， 不 出 现 值 为 0。 本 章 使 用 第 三 种 。 





男 外 一 种 (更 ) 通用 的 规范 化 方法 叫 作词 频 - 逆 文 档 频 率 法 (term frequency-inverse document 


frequency， 简 写 为 tf-idf )， 该 加 权 方 法 月 


的 文档 的 数量 。 第 10 章 








Python 有 很 多 用 于 处 到 
然 语 言 处 理工 具 集 ) 抽取 特 行 











议 你 花 点 时 间 了 解 下 ( 
Python 做 自然 语言 处 理 


6.2.2 元 语法 


比 起 用 单个 词 作 特征 ， 使 用 N 元 语法 能 更 好 地 描述 文档 ， 具 体 优势 稍 后 会 i 











将 会 用 到 词 频 - 逆 文 档 频 率 法 。 











日 词 频 来 代替 词 的 出 现 次 数 ， 然 后 再 用 词 频 除 以 包含 该 词 


文本 的 库 。 我 们 将 使 用 主流 的 NLITK 库 (Natural Language ToolKit， 自 
F。 scikit-learn 提 供 进 行 类 似 处 理 的 countVectorizer 类 ， 建 


第 9 章 将 会 用 到 )。 然 而 在 分 词 方面 ，NLTK 提 供 更 多 选择 。 如 果 你 打算 用 


，NLTK 是 个 不 错 的 选择 。 



































。N 元 语法 是 指 


由 几 个 连续 的 词组 成 的 子 序列 。 拿 我 们 的 数据 集 来 讲 , N 元 语法 指 的 是 每 条 消息 里 一 组 连续 的 词 。 











N 元 语法 的 计算 方法 跟 计 算 单 个 词语 方法 相同 ， 我 们 把 构成 N 元 语法 的 几 个 词 看 成 是 词 袋 中 





的 一 个 词 。 数 据 集 "中 每 一 项 就 变 成 了 N 元 语法 在 给 定 文档 中 的 词 频 。 





法 NN 元 语法 中 的 参数 4， 对 于 英语 这 门 语言 ， 一 开始 取 2 到 5 之 间 的 值 就 可 以 ， 
有 些 应 用 可 能 要 使 用 更 高 的 值 





举 个 例子 吧 ， 当 n 取 3 时 ,我 们 从 下 面 引 文中 抽取 前 儿 个 N 元 请 法 。 














GD 指 用 N 元 语法 作为 特 生 








F 的 数据 集 。 一 一 译 考 注 
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Always look on the bright side of life. 


名 全 


第 一 个 N 元 语法 (三 元 ) 是 Always look on， 第 二 个 是 look on the， 第 三 个 是 on the bright。 你 


可 能 已 经 发 现 ， 几 个 N 元 语法 有 重合 ， 其 中 三 个 词 有 不 同 程度 的 重复 。 


N 元 语法 比 起 单个 词 有 很 多 优点 。 这 个 简单 的 概念 不 用 通过 大 量 的 计算 ， 就 提供 了 有 助 于 理 
解 词语 用 法 的 上 下 文 信息 。 它 的 缺点 是 特征 和 矩阵 变 得 更 为 稀 玖 一 一 一 个 N 元 语法 不 太 可 能 出 现 两 
次 (尤其 是 在 Twitter 消 息 及 其 他 短文 本 中 ! )。 

对 于 社会 媒体 所 产生 的 内 容 以 及 其 他 短文 档 ，N 元 语法 不 可 能 出 现在 多 篇 不 同 的 文档 中 ， 除 
非 是 转发 。 然 而 ， 在 长 文档 中 ，N 元 语法 就 很 有 效 。 

文档 的 男 外 一 种 N 元 语法 关注 的 不 是 一 组 词 而 是 一 组 字符 ( 虽然 字符 N 元 语法 "有 多 种 计算 方 
法 ! )。 字 符 N 元 语法 有 助 于 发 现 拼写 错误 ， 除 此 之 外 ， 还 有 其 他 好 处 。 本 章 及 第 9 章 都 将 测试 这 
种 N 元 语法 的 效果 。 




































































6.2.3 ”其 他 特征 


除了 N 元 语法 外 ， 还 可 以 抽取 很 多 其 他 特征 ， 其 中 就 包括 句法 特征 ， 比 如 特定 词语 在 句子 中 
的 用 法 。 对 于 需要 理解 文本 含义 的 数据 挖掘 应 用 , 往往 会 用 到 词性 。 本 书 限于 篇 幅 将 不 涉及 这 些 
特征 。 如 果 你 对 此 感 兴趣 , 推荐 你 看 由 Packt 出 版 的 Python 3 Text Processing with NLTK 3 Cookbook， 
作者 为 Jacob Perkins。 








6.3 ”朴素 贝 叶 斯 


毫 无 疑问 , 朴素 贝 叶 斯 概率 模型 是 以 对 贝 叶 斯 统计 方法 的 朴素 解释 为 基础 。 尽 管 存 在 朴素 的 
一 面 , 这 种 方法 应 用 面 很 广 且 都 取得 了 不 错 的 效果 。 特征 类 型 和 形式 多 样 的 数据 集 也 可 以 用 它 进 
行 分 类 ， 本 章 重 点 讲解 如 何 用 二 值 化 后 的 特征 组 成 的 词 袋 模型 来 分 类 。 






































6.3.1 ” 贝 叶 斯 定理 

大 多 数 人 在 开始 学 习 统 计 学 时 , 都 会 被 灌输 从 频率 论 者 角度 出 发 看 问题 的 思想 , 即 假定 数据 
遵从 某 种 分 布 , 我 们 的 目标 是 确定 该 种 分 布 的 几 个 参数 ,我 们 假定 参数 是 固定 的 ( 也 可 能 不 正确 )， 
然后 用 自己 的 模型 来 套 这 些 数据 ， 甚 至 通过 测试 来 证 明 数 据 与 我 们 的 模型 相 吻 合 。 

相反 ， 贝 叶 斯 统计 实际 上 是 根据 普通 人 非 统计 学 家 ) 实际 的 推理 方式 来 建 模 。 我 们 用 拿 
到 的 数据 ， 来 更 新 模型 对 某 事件 即将 发 生 的 可 能 性 的 预测 结果 。 在 贝 叶 斯 统计 学 中 ， 我 们 使 用 







































































英文 为 Character N-gram。 一 一 译 者 注 
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数据 来 描述 模型 ， 而 不 是 使 用 模型 来 描述 数据 ， 用 数据 证 实 拍 脑 瓜 得 出 的 模型 是 典型 的 频率 论 
者 的 做 法 。 

贝 叶 斯 定理 旨 在 计算 P(A | B) 的 值 ， 也 就 是 在 已 知 B 发 生 的 条 件 下 ，A 发 后 的 概率 是 多 少 。 大 
多 数 情况 下 ，B 是 被 观察 事件 ， 比 如 “昨天 下 十 了 ”，A 为 预测 结果 “今天 会 下 雨 "。 对 数据 控 掘 
来 说 ，B 通 常 是 观察 样本 个 体 ，A 为 被 预测 个 体 所 属 类 别 。 下 一 节 将 学 习 如 何在 数据 挖掘 领域 使 
用 贝 叶 斯 定理 。 


贝 叶 斯 定理 公式 如 下 : 















































pd IOP 


举例 说 明 ， 我 们 想 计 算 含有 单词 drugs 的 邮件 为 垃圾 邮件 的 概率 〈 正如 我 们 认为 含有 该 词 的 
Twitter 消息 可 能 是 儿 售 药品 的 垃圾 广告 )。 


在 这 里 ，A 为 “这 是 封 垃圾 邮件 ”。" 我 们 先 来 计算 P(A)， 它 也 被 称 为 先 验 信念 (priorbelief )。 
计算 方法 是 ， 统 计 训练 集中 垃圾 邮件 的 比例 。 如 果 我 们 的 数据 集 每 100 封 邮件 有 30 封 垃圾 邮件 ， 
P(A) 为 30/100 或 0.3。 


B 表 示 “ 该 封 邮件 含有 单词 drugs"。 类 似 地 ， 我 们 可 以 通过 计算 数据 集中 含有 单词 drugs 的 邮 
件数 量 得 到 P(B)。 如 果 每 100 封 邮件 中 有 10 封 邮件 包含 单词 drugs， 那 么 P(B) 就 为 10/100 或 0.1。 计 
算 P(B) 时 ， 我 们 不 关注 邮件 是 不 是 垃圾 邮件 。 


P(BIA) 指 的 是 垃圾 邮件 中 含有 单词 drugs 的 概率 , 计算 起 来 也 很 容易 ,统计 训练 集中 所 有 垃圾 
邮件 的 数量 以 及 其 中 含有 单词 drugs 的 数量 。30 封 垃圾 邮件 中 ， 如 果 有 6 封 含 有 单词 drugs ， 那 么 
P(B|A) 就 为 6/30 或 0.2。 


现在 , 我 们 根据 贝 叶 斯 定理 就 能 计算 出 P(AIB), 得 到 含有 drugs 的 邮件 为 垃圾 邮件 的 概率 。 把 
上 面 求 出 来 的 各 项 代入 前 面 的 贝 叶 斯 公式 ， 得 到 结果 0.6。 这 表明 如 果 邮 件 中 含有 drugs 这 个 词 ， 
那么 该 邮件 为 垃圾 邮件 的 概率 为 60%。 


请 注意 上 述 例 子 的 实证 性 特点 一 一 我 们 使 用 的 经 验 或 证 据 直接 来 自 于 数据 集 , 而 不 是 事先 假 


定好 的 某 种 分 布 。 相 比 之 下 , 频率 论 方法 会 要 求 我 们 首先 为 训练 集中 的 单词 出 现 概率 创建 某 种 分 
布 形式 。 


































































































6.3.2 ”朴素 贝 叶 斯 算法 
回 过 头 看 下 贝 叶 斯 公式 ,我 们 可 以 用 它 计 算 个 体 从 属于 给 定 类 别 的 概率 。 因 此 ， 它 可 以 用 来 



































Q 原文 直译 为 “A 为 这 是 封 垃 圾 邮件 的 概率 "， 其 实 此 处 A 表 示 的 是 事件 ， 而 不 是 概率 。 一 一 译 者 注 
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分 类 。 

我 们 用 C 表 示 某 种 类 别 ， 用 D 表 示 数 据 集中 一 篇 文档 ， 来 计算 贝 叶 斯 公式 所 要 用 到 的 各 种 统 
计量 ， 对 于 不 好 计算 的 ， 做 出 朴素 假设 ， 简 化 计算 。 朴 素 贝 叶 斯 分 类 算法 使 用 贝 叶 斯 定理 计算 个 
体 从 属于 某 一 类 别 的 概率 。 

P(C) 为 某 一 类 别 的 概率 ,可 以 从 训练 集中 计算 得 到 (方法 跟 上 文 检测 垃圾 邮件 例子 所 用 到 的 
一 致 ) 统计 训练 集 所 有 文档 从 属于 给 定 类 别 的 百分比 。 

POD) 为 某 一 文档 的 概率 ， 它 牵扯 到 各 种 特征 ， 计 算 起 来 很 困难 ,但 是 在 计算 文档 属于 哪个 类 
别 时 ， 对 于 所 有 类 别 来 说 ，P(D) 相 同 ， 因 此 根本 就 不 用 计算 它 。 稍 后 我 们 来 看 下 怎么 处 理 。 

P(DIC) 为 文档 D 属 于 C 类 的 概率 。 由 于 D 包 含 多 个 特征 ， 计 算 起 来 可 能 很 困难 ， 这 时 朴素 贝 叶 
斯 算 法 就 派 上 用 场 了 。 我 们 朴素 地 假定 各 个 特征 之 间 是 相互 独立 的 ， 分 别 计算 每 个 特征 〈(D1、 
D2、D3 等 ) 在 给 定 类 别 出 现 的 概率 ， 再 求 它们 的 积 。 

PCBDLEY 三 (下 二 (下 2 | 


上 式 右 侧 对 于 二 值 特征 相对 比较 容易 计算 。 直 接 在 数据 集中 进行 统计 ,就 能 得 到 所 有 特征 的 








































































































概率 值 。 El 
相反 ， 如 果 我 们 不 做 朴素 的 假设 , 就 要 计算 每 个 类 别 不 同 特征 之 间 的 相关 性 。 这 些 计算 很 难 








完成 ， 如 果 没 有 大 量 的 数据 或 足够 的 语言 分 析 模 型 也 不 可 能 完成 。 


到 这 里 ， 算 法 就 很 明确 了 。 对 于 每 个 类 别 ， 我 们 都 要 计算 P(CID)， 忽 略 P(D) 项 。 概 率 较 高 的 那 
个 类 别 即 为 分 类 结果 。 由 于 P(D) 对 每 个 类 别 来 说 都 是 相等 ， 去 掉 它 对 最 终 预 测 结果 没有 多 大 影响 。 





6.3.3 ”算法 应 用 示例 
举例 说 明 下 计算 过 程 ， 假 如 数据 集中 有 以 下 一 条 用 二 值 特征 表示 的 数据 : [1, 0, 0, 1]。 
训练 集中 有 75% 的 数据 属于 类 别 0, 25% 属 于 类 别 1, 且 每 个 特征 属于 每 个 类 别 的 似 然 度 如 下 。 


类 别 0: [0.3，0.4，0.4，0.7] 























类 别 1: [0.7，0.3，0.4，0.9] 


拿 类 别 0 中 特征 1 的 似 然 度 举例 子 ， 上 面 这 两 行 数据 可 以 这 样 理 解 : 类 别 0 中 有 30% 的 数据 ， 
特征 1 的 值 为 1。 


我 们 来 计算 一 下 这 条 数据 属于 类 别 0 的 概率 。 类 别 为 0 时 ，P(C=0) = 0.75。 
朴素 贝 叶 斯 算法 用 不 到 P(D)， 因 此 我 们 不 用 计算 它 。 我 们 来 看 下 计算 过 程 。 


P(DIE=S0y SP(DLIESO0) RP(D2TE=0) PDINES0) XK PEDEICSEOY 
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0.50756 


了 汪汪 硅 


第 二 、 三 个 值 为 0.6， 是 因为 在 上 面 我 们 给 出 的 那 条 数据 ([1, 0,0, 1] ) 中 ， 
人 、 这 两 个 特征 的 值 为 0。 而 我 们 给 出 的 似 然 度 表示 特征 值 取 1 时 ， 在 各 类别 的 概率 。 
因此 ， 特 征 值 为 0 的 概率 为 : P(O)=1-P(G) 。 


现在 , 我 们 就 可 以 计算 该 条 数据 从 属于 每 个 类 别 的 概率 。 需要 提醒 的 是 , 我 们 没有 计算 P(D)， 
因此 ,计算 结果 不 是 实际 的 概率 。 由 于 两 次 都 不 计算 P(D), 结果 具有 可 比较 性 ,能够 区 分 出 大 小 
就 足够 了 。 来 看 下 计算 结 





























P(C=01D) = P(C=0) P(DIC=0) 

S07 0 07S6 

00567 

接着 ， 计 算 类 别 1 的 概率 。 

P(CEL) I E025 

朴素 贝 叶 斯 公式 不 需要 计算 P(D)。 我 们 来 看 下 计算 过 程 。 
P(DICST) =:B(DLICSI). KB(DZICSET). KE(D3TCSL) 六- 下: 人 村 Cs1) 
= O07 RR 6 0>9 

= 0.2646 

P(C=1|D) = P(C=1)P(D|C=1) 

S0207 002646 

= 0,06615 


通常 ，P(C=0ID) + P(C=1ID) 应 该 等 于 1。 人 毕竟， 只 有 这 两 种 选择 ! 然而 ， 我 
一 们 这 里 二 者 的 和 不 为 1， 因 为 我 们 在 计算 时 省 去 了 公式 中 的 P(D) 项 。 





该 条 数据 应 该 被 分 到 类 别 1 中 。 计 算 过 程 中 ， 你 可 能 已 经 猜 到 结果 了 。 看 到 最 终结 果 两 个 类 
别 的 概率 如 此 接近 ， 你 可 能 还 是 会 有 点 惊讶 。 毕 竞 ， 类别 为 0 时 ，P(DIC) 的 概率 比 类 别 为 1 时 高 很 
多 。 这 是 因为 我 们 给 出 的 先 验 概率 很 高 ， 即 大 部 分 数据 都 属于 类 别 0。 


如 果 训 练 集中 两 类 数据 数量 相同 ， 结 果 就 会 大 为 不 同 。 假 设 P(C=0) 、P(C=1) 各 为 0.5， 再 计 
算 下 结果 看 看 。 
































6.4 应 用 
接 下 来 , 创建 流水 线 , 接收 一 条 消息 , 仅 根据 消息 内 容 , 判断 它 是 否 与 编程 语言 Python 相关 。 
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我 们 使 用 NLTK 抽 取 特 征 。 NLTK 提 供 了 大 量 用 于 自然 语言 处 理 的 工具 。 后续 章节 还 会 继续 使 
用 它 0 


用 pip 安 装 NLTK: pip3 install nltk 
> 如 果 安 装 失败 ， 请 参考 NLTK 安 装 指南 : Www.nltk.org/install.html。 


接 下 来 , 创建 流水 线 抽取 词语 特征 , 并 使 用 朴素 贝 叶 斯 算法 对 消息 进行 分 类 。 流水 线 包 括 以 
下 步 又 。 


(1) 用 NLTK 的 worq_tokenize 国 数 ， 将 原始 文档 转换 为 由 单词 及 其 是 否 出 现 组 成 的 字典 。 

(2) 用 scikit-learn 中 的 DictVectorizer 转 换 需 将 字典 转换 为 向 量 和 矩阵 ， 这 样 朴素 贝 叶 
斯 分 类 器 就 能 使 用 第 一 步 中 抽取 的 特征 。 

(3) 正如 前 儿 章 做 过 的 那样 ， 训 练 朴素 贝 叶 斯 分 类 器 。 

(4) 还 需要 新 建 一 个 笔记 本 文件 ch6_classify twitter ( 本 章 最 后 一 个 )， 用 于 分 类 。 


6.4.1 抽取 特征 6 


我 们 使 用 NLTK 抽 取 单词 是 否 出 现 作为 特征 。 我 们 想 在 流水 线 中 使 用 NLTK, 但 是 它 的 接口 与 
转换 器 接口 不 一 致 。 因 此 ， 需 要 创建 一 个 包含 fit 和 transform 方 法 的 基础 转换 器 ， 只 有 这 样 才 
能 在 流水 线 中 使 用 。 


首先 ， 创 建 转 换 器 类 。 这 个 类 不 需要 进行 预 处 理 ， 只 需要 抽取 特征 。 因 此 ，fit 函 数 不 做 任 
何 操作 ， 只 返回 它 自 身 (self ) 即 可 ， 转 换 器 对 象 要 用 到 它 。 


转换 器 函数 就 有 点 复杂 。 我 们 要 用 它 从 每 篇 文档 中 抽取 单词 ， 如 果 单 词 出 现 ， 记 为 True。 
注意 这 里 使 用 二 值 特征 ,单词 在 文档 中 出 现 , 值 为 True, 反之 , 值 为 False。 如 果 我 们 想 使 用 词 
频 ， 就 要 创建 用 来 统计 单词 频率 的 字典 ， 前 几 章 讲 过 。 


来 看 下 代码 。 


from sklearn.base import TransformerMixin 
class NLTKBOW (TransformerMixin): 
def fit(self, XxX, y=None): 
return self 
def transform(self, X): 
return [{word: True for word in word tokenize(document)} 
for document in X] 


返回 结果 为 一 个 元 素 为 字典 的 列表 , 第 一 个 字典 的 各 项 为 第 一 条 消息 中 的 所 有 词语 。 字典 的 
每 一 项 用 单词 作为 键 ， 值 为 True， 表 示 该 词 在 该 条 消息 中 出 现 过 。 字 典 中 没有 出 现 的 词 ， 表 示 
这 条 消息 里 不 包含 该 词 。 当 然 , 我 们 也 可 以 用 值 False 来 表示 没 在 消息 中 的 词 , 但 是 那样 太 浪费 
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存储 空间 ， 也 没有 必要 。 


6.4.2 ”将 字典 转换 为 矩阵 

这 一 步 是 将 上 面 得 到 的 字典 转换 为 可 以 用 分 类 器 进行 处 理 的 怎 阵 。 在 DictVvectorizer 的 帮 
助 下 ， 这 一 步 变 得 非常 容易 。 

DictVectorizer 类 接受 元 素 为 字典 的 列表 , 将 其 转换 为 矩阵 。 和 矩阵 中 的 各 个 特征 为 所 有 字 
上 典 中 的 每 个 键 ,特征 值 就 是 特征 在 文本 中 是 否 出 现 。 用 代码 生成 字典 很 容易 , 但 是 实现 的 很 多 数 
据 控 掘 算法 更 喜欢 接收 矩阵 格式 的 数据 ， 于 是 DictVvectorizer 显 得 格外 有 用 。 

数据 集中 ， 每 个 字典 用 单词 作为 键 ， 单 词 只 有 在 对 应 的 消息 中 出 现 ， 这 个 单词 才 会 出 现 
在 字典 里 。 因 此 ， 和 矩阵 以 每 个 单词 作为 特征 ， 如 果 消 息 中 出 现 访 单词， 那么 相应 的 特征 值 就 


为 True。 


导 人 DictVectorizer 后 ， 就 可 以 使 用 它 。 





















































from sklearn.feature extraction import DictVectorizer 


6.4.3 ”训练 朴素 贝 叶 斯 分 类 器 

最 后 ,我 们 需要 组 装 分 类 器 ， 因 为 本 章 使 用 朴素 贝 叶 斯 算法 ,数据 集 只 包含 二 值 特征 ， 因 此 
我 们 使 用 专门 用 于 二 值 特 征 分 类 的 BernoulliNB 分 类 器 ， 它 用 起 来 很 简单 。 就 像 是 
DictVectorizer 一 样 ， 我 们 先 来 导入 它 ， 把 它 添加 到 流水 线 中 。 



































from sklearn.naive bayes import BernoulliNB 


6.4.4 组 装 起 来 

终于 等 到 把 所 有 部 件 组 装 起 来 的 时 候 了 。 像 前 面 做 过 的 那样 ， 在 笔记 本 文件 中 ,指定 好 文 
件 名 ， 加 载 数 据 集 和 类 别 数据 。 注 意 是 消息 〈 不 是 消息 编号 ) 及 它们 的 类 别 所 在 的 文件 。 代 码 
如 下 : 



































import os 


input_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python tweets.json") 

labels_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python classes.json") 





加 载 消息 。 我 们 只 对 消息 内 容 感 兴趣 ， 因 此 只 提取 和 存储 它们 的 text 值 。 代 码 如 下 : 


tweets = [] 
with open(input_filename) as inf: 
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for line in inf: 
if Ten(line.strip()) == 0°: 
continue 
tweets.append(json.loads (line)['text']) 


加 载 消息 的 类 别 。 


with open(classes_filename) as inf: 
labels = json.load (inf) 


创建 流水 线 ， 把 所 有 部 件 组 合 起 来 。 流 水 线 包 含 以 下 三 个 部 分 。 


口 我 们 创建 的 NLTKBOW 转 换 器 
口 Dictvectorizer 转 换 器 
口 BernoullLiNB 分 类 器 


流水 线 代码 如 下 : 











from sklearn.pipeline import Pipeline 

pipeline = Pipeline([('bag-of-words', NLTKBOW()), 
('vectorizer', DictVectorizer()), 

('naive-bayes', BernoulliNB()) 

] ) 


我 们 几乎 现在 就 可 以 运行 流水 线 ,用 之 前 多 次 用 过 的 cross_val_score 方 法 来 计算 正确 率 。 
但 是 在 这 之 前 ,我 们 要 介绍 一 种 比 正 确 率 更 好 的 评价 指标 。 我 们 后 面 会 看 到 ， 每 个 类 别 数据 量 不 
同 的 情况 下 ， 正 确 率 不 足以 说 明 算 法 的 优 劣 。 





6.4.5 用 F1 值 评估 


选择 评价 指标 时 ， 了 人 解 它们 的 适用 范围 很 重要 。 正 确 率 应 用 范围 很 广 ， 理 解 起 来 比较 容易 ， 
计算 起 来 也 方便 。 但是， 造假 很 容易 。 换 名 话说 ,你 很 容易 就 能 实现 一 个 正确 率 很 高 , 但 实际 用 
处 不 大 的 算法 。 


我 们 的 消息 数据 集 ( 你 的 可 能 与 此 不 同 ) 中 ，50% 的 消息 与 编程 语言 上 有关，50% 不 相关 ,很 
多 数据 集 不 会 这 么 均匀 (balanced )。 


例如 ， 对 于 垃圾 邮件 过 滤器 而 言 ， 其 所 处 理 的 邮件 很 可 能 80% 以 上 都 是 垃圾 邮件 ， 倘 若 一 个 
过 滤器 把 所 有 邮件 都 标 为 垃圾 邮件 ， 它 没有 实际 应 用 价值 ， 但 是 正确 率 却 高 达 80%! 


为 了 解决 这 个 问题 ， 我 们 使 用 另 一 个 最 为 常用 的 评价 指标 F1 值 (也 被 称 为 F 值 、F-measure， 
或 者 其 他 变 体 ”)。 






































@ 比如 F0.5 等 。 一 一 译 者 注 
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F1 值 是 以 每 个 类 别 为 基础 进行 定义 的 , 包括 两 大 概念 : 准确 率 ( precision ) 和 召回 率 (recall )。 
准确 率 是 指 预测 结果 属于 某 一 类 的 个 体 , 实际 属于 该 类 的 比例 。 召 回 率 是 指 被 正确 预测 为 某 个 类 
别 的 个 体 数 量 与 数据 集中 该 类 别 个 体 总 量 的 比例 。 

在 我 们 这 里 ， 可 分 别 对 两 个 类 别 ( 相关 和 不 相关 ) 的 分 类 情况 计算 F1 值 。 但 是 , 我 们 只 关注 
相关 这 一 类 数据 的 分 类 情况 。 因 此 ， 准 确 率 计算 变 为 以 下 问题 : 在 所 有 被 预测 为 相关 的 消息 中 ， 
真正 相关 的 占 比 多 少 ? 类 似 地 ,召回 率 就 转化 为 : 数据 集 所 有 相关 的 消息 中 ， 有 多 少 被 正确 预测 
为 相关 的 ? 


计算 出 准确 率 和 召回 率 后 ， 就 能 得 到 F1 值 ， 它 是 两 者 的 调和 平均 数 。 






































F1 =2. Precision- recall 





precision + recall 
将 scoring 参 数 的 值 设置 为 F1， 就 能 使 用 scikit-learn 中 的 Fl1 方 法。 默认 将 会 返回 类 别 为 
1 的 F1 值 。 使 用 以 下 代码 求 得 F1 值 。 
scores = cross_val_score(pipeline, tweets, labels, scoring='f1') 


输出 平均 值 。 





import numpy as np 
print ("Score: {:.3f}".format (np.mean(scores))) 


结果 为 0.798, 这 表明 预测 含有 Python 的 消息 与 编程 语言 有 关 的 F1 值 差不多 为 80%。 这 是 使 
用 包含 200 条 消息 的 数据 集 取得 的 结果 。 如 果 采 集 更 多 消息 作为 训练 数据 ， 你 会 发 现 结果 还 会 
提升 ! 





























< 
| Q 更 多 的 数据 通常 意味 着 更 好 的 结果 ， 但 也 不 一 定 ! ] 


6.4.6 ”从 模型 中 获取 更 多 有 用 的 特征 
你 可 能 存在 这 样 的 疑问 :“ 什 么 特征 才 是 判断 一 条 消息 是 否 相 关 的 最 好 的 特征 ? ”我 们 可 以 
从 朴素 贝 叶 斯 模型 中 抽取 该 信息 ， 找 到 朴素 贝 叶 斯 算法 所 认为 的 最 好 的 特征 。 


首先 ， 训 练 得 到 一 个 新 模型 。 使 用 cross_val_score 在 测试 集 上 得 到 交叉 检验 结果 不 难 ， 
但 是 要 得 到 模型 本 身 就 不 容易 了 。 为 了 得 到 模型 ， 我 们 只 好 用 流水 线 的 fit 函 数 ， 创 建新 模型 。 
代码 如 下 : 


model = pipeline.fit (tweets, labels) 
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注意 我 们 不 是 在 评价 模型 ， 训 练 /测试 集 的 切 分 就 没 那 么 严格 。 然 而 ， 在 使 
用 这 些 特征 之 前 ， 应 该 在 单独 的 测试 集 上 评价 其 表现 。 为 保证 讲解 得 清楚 明了 ， 
跳 过 这 一 部 分 。 








借助 流水 线 的 named_steps 属 性 和 步骤 名 ( 创建 流水 线 对 象 时 ， 我 们 自己 定义 的 )， 就 能 访 
问 流水 线 每 一 个 步 又。 例如 ， 可 以 像 下 面 这 样 访问 朴素 贝 叶 斯 模型 。 

nb = model.named_ steps['naive-bayes'] 

从 这 个 模型 中 ， 可 以 抽取 每 个 单词 的 对 数 概率 ， 比 如 log(P(A| 人 )， 其 中 伪 给 定 特 征 。 

之 所 以 使 用 对 数 概 率 ， 是 因为 实际 值 非常 小 。 例 如 ,第 一 个 值 为 -3.486， 实际 概率 约 为 0.03。 
计算 中 涉及 很 小 的 概率 值 时 , 常 使 用 对 数 概率 来 防止 数值 下 洲 ， 因 为 非常 小 的 值 往往 会 被 约 等 于 
0。 所 有 概率 连 乘 ， 其 中 一 个 值 为 0， 最 终结 果 将 为 0! 而 实际 上 即使 是 很 小 的 值 ， 大 小 不 同 ， 对 
分 类 的 贡献 率 也 会 有 所 差异 ， 值 越 大 的 特征 贡献 率 越 大 。 

把 得 到 的 对 数 概率 数组 按照 降序 排列 , 找 出 最 有 用 的 特征 。 降 序 排列 , 需要 在 值 前 加 个 负 号 。 
代码 如 下 : 
































top_features = np.argsort (-feature probabilities[1])[:50] 


上 面 代码 只 是 给 出 特征 索引 值 而 没有 给 出 实际 的 特征 名 称 。 这 样 看 不 出 什么 东西 来 ， 因 此 ， 
需要 把 特征 索引 和 特征 名 称 对 应 起 来 。 流水 线 的 Dictvectorizer 这 一 步 很 关键 , 它 是 用 来 创建 
和 矩阵 的 。 幸 运 的 是 ， 它 也 记录 了 特征 名 称 和 索引 值 的 映射 关系 。 因 此 ， 可 以 从 流水 线 的 这 一 部 分 
抽取 特征 。 


dv = model.named_ steps['vectorizer'] 


通过 在 DictVectorizer 的 feature_names_ 属 性 中 进行 查找 , 找到 最 佳 特征 的 名 称 , 然后 
将 其 输出 。 输 入 下 面 代码 ， 运 行 后 将 得 到 最 佳 特征 列表 。 






























































for i, feature_index in enumerate (top_features) : 
print (i, dv.feature names_[feature_ index], 
np.exp (feature probabilities[1] [feature_index])) 


前 几 个 特征 为 “:” “http” “#” “@”。 结合 采集 的 数据 来 判断 ， 我 们 认为 这 些 很 可 能 
是 噪音 (虽然 冒号 在 编程 语言 之 外 的 文本 中 使 用 的 相对 较 少 )。 更 多 的 训练 数据 ， 有 助 于 减少 这 
些 噪音 对 分 类 的 影响 。 接 着 往 下 看 ， 下 面 这 些 特征 更 像 是 与 编程 语言 有 关 。 

7 for 0.188679245283 

11 with 0.141509433962 

28 installing 0.0660377358491 


29"T0pB..0.0660377358491 
34 Developer 0.0566037735849 
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35 .1ibrary: 0%0566037735849 
36 ] 0.0566037735849 

37 [ 0.0566037735849 

41 version 0.0471698113208 
43 error 0.0471698113208 


还 有 一 些 特征 是 在 工作 环境 中 提 及 Python, 因此 可 能 指 的 是 编程 语言 Python。( 虽然 作为 自由 
职业 者 的 而 蛇 人 也 可 能 使 用 Python 这 个 词 ， 但 是 他 们 较 少 活跃 在 Twitter 上 。) 

22 jobs 0.0660377358491 

30 looking 0.0566037735849 

31 Job 0.0566037735849 

34 Developer 0.0566037735849 

38 Freelancer 0.0471698113208 

40 projects 0.0471698113208 

47 We're 0.0471698113208 

上 面 最 后 一 个 特征 通常 出 现在 诸如 “We’re looking for a candidate for this job”( 我 们 正在 招聘 
符合 该 职位 要 求 的 员工 ) 这 样 的 消息 中 。 


查看 这 些 特 征 , 我 们 收获 不 小 ， 有 了 这 些 特征 ,我们 自己 经 过 训练 也 可 以 完成 分 类 任务 , 寻 
找 这 些 特征 的 共同 点 ( 与 主题 相关 )， 或 者 去 除 讲 不 通 的 特征 。 例 如 ， 词 “RT” 虽 然 排名 比较 靠 
前 ， 然 而 ， 这 是 Twitter 网 站 表示 转发 的 用 语 。 经 验 丰 富 的 工作 人 员 就 可 以 从 特征 列表 中 删除 这 个 
词 ， 降 低 由 于 数据 集 很 小 而 引入 的 噪音 对 分 类 结果 的 影响 。 
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本 章 研究 的 是 文本 挖掘 一 一 特征 的 抽取 、 应 用 及 扩展 方法 , 具体 研究 任务 是 根据 语 境 消 除 词 
语 的 歧义 一 一 即 一 条 消息 中 的 Python 是 否 指 编 程 语言 。 我 们 使 用 Twitter 提 供 的 API 下 载 消息 ,使 
用 在 笔记 本 文件 中 建立 的 表单 完成 语 料 标注 。 


我 们 还 考虑 了 实验 结果 的 可 再 现 性 。 虽 然 Twitter 不 允许 你 把 自己 采集 的 数据 给 别人 使 用 , 但 
是 消息 编号 是 可 以 共享 的 。 我 们 编写 代码 ,保存 消息 编号 ， 再 用 这 些 编号 来 重建 先前 的 数据 集 。 
由 于 有 些 消息 被 删除 或 是 出 于 其 他 原因 ， 我 们 无 法 再 次 获取 它们 。 

我 们 用 朴素 贝 叶 斯 分 类 器 对 文本 进行 分 类 , 该 分 类 咒 是 以 贝 叶 斯 定理 为 基础 , 它 使 用 数据 来 
更 新 模型 ， 而 不 是 像 频率 论 者 那样 从 模型 出 发 。 这 有 助 于 整合 新 数据 到 模型 中 ,利用 新 数据 来 更 
新 模型 和 使 用 先 验 知识 。 此 外 ,基于 各 特征 相互 独立 的 朴素 假设 , 便于 计算 各 特征 出 现在 给 定 类 
别 的 概率 ， 而 不 用 考虑 各 特征 之 间 复 杂 的 相关 性 。 


我 们 用 词语 是 否 出 现 作 为 特征 值 一 一 即 消息 是 否 含有 某 个 词 ， 这 种 模型 " 叫 作 词 袋 模型 。 虽 





























































































































































































































Qa 把 文档 看 成 由 一 个 个 孤立 的 、 无 前 后 位 置 关系 的 单词 组 成 的 。 一 一 译 者 注 
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然 它 丢掉 了 词语 在 句子 中 的 位 置 等 信息 ， 但 它 在 很 多 数据 集 上 表现 不 几 。 








朴素 贝 叶 斯 分 类 器 结合 词 袋 模 型 ， 组装 成 的 流水 线 功 能 强大 。 对 于 大 多 数 文本 挖掘 任务 ， 它 
都 能 取得 很 好 的 效果 。 在 尝试 更 高 级 的 模型 之 前 , 用 这 样 的 分 类 器 取得 的 分 类 结果 作为 参考 的 基 
准 很 不 错 。 另 外 一 个 优点 是 ,朴素 贝 叶 斯 分 类 器 不 需要 调整 任何 参数 ( 如 果 你 愿意 折腾 的 话 ， 也 
确实 有 几 个 )。 



































下 一 章 将 介绍 怎样 从 另外 一 种 数据 类 型 一 一 图 中 抽取 特征 , 尝试 解决 向 社会 媒体 网 站 用 户 推 
荐 感 兴趣 的 人 这 一 问题 。 





用 图 挖掘 找到 感 兴趣 的 人 








很 多 事物 都 可 用 图 来 表示 ， 大 数据 、 社 交 网 络 和 物 联 网 时 代 尤 其 如 此 。 特 别 值得 一 提 的 是 ， 
社交 网 络 具 有 很 大 的 商业 价值 ， 像 Facebook 这 样 每 天 有 5 亿 活跃 用 户 〈50% 的 用 户 每 天 都 会 登录 ) 
的 网 站 , 通过 定向 投放 广告 获 利 颇 丰 。 怎 样 才能 打造 一 个 这 样 的 网 站 呢 ? 对 于 网 站 而 言 ， 要 想 留 
住 用 户 ， 你 得 有 用 户 感 兴趣 的 人 或 内 容 。 


本 章 将 探讨 相似 度 这 个 概念 以 及 如 何 根据 它 来 创建 图 模型 ， 并 且 探 讨 如 何 使 用 连通 分 支 
( connected components ) 把 大 图 分 为 有 意义 的 小 图 。 本 章 即将 介绍 的 算法 引入 聚 类 分 析 概 念 一 一 
根据 相似 度 ， 把 大 数据 集 划 分 为 儿 个 子 集 。 第 10 章 将 对 聚 类 分 析 做 更 加 深入 的 讲解 。 


本 章 主要 内 容 如 下 : 


口 用 社交 网 络 数据 创建 图 

口 加 载 和 保存 创建 的 分 类 器 
口 NetworkX 库 
D 图 到 和 矩阵 的 转换 
口 距离 和 相似 度 
口 根据 打分 函数 优化 参数 
口 损失 函数 和 打分 函数 









































7.1 加 载 数 据 集 

本 章 的 任务 是 根据 社交 网 络 用 户 的 好 友信 息 ， 向 他 们 推荐 好 友 。 逻 辑 为 : 如 果 两 个 用 户 有 共 
同 的 好 友 ， 那 么 这 两 个 人 相似 度 很 高 ， 值 得 向 彼此 推荐 。 

利用 上 一 章 介 绍 的 Twitter API 来 获取 数据 ， 创 建 一 个 小 的 社交 网 络 图 。 寻 找 喜欢 同一 个 话题 


《与 上 一 章 相同 , 依旧 是 编程 语言 Python ) 的 用 户 , 从 中 选 一 部 分 , 再 获取 这 些 人 的 好 友 列 表 (他 
们 关注 的 人 ) 有 了 以 上 数据 ， 就 能 根据 两 个 用 户 共 同 拥有 的 好 友 数 量 ， 计 算 他 们 的 相似 度 。 
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除了 Twitter， 还 有 很 多 其 他 社交 网 站 。 之 所 以 使 用 Twitter， 是 因为 其 提供 的 
API 很 容易 获取 所 需要 的 数据 。 其 他 网 站 ， 比 如 Facebook、LinkedIn 和 Instagram 
等 也 开放 这 些 数据 ， 但 是 获取 起 来 难度 更 大 些 。 





现在 来 采集 数据 ， 新 建 一 个 IPython Notebook 笔 记 本 文件 ， 初 始 化 twitter 连 接 实例 ， 方 法 
与 上 一 章 相同 。 可 以 沿用 上 一 章 所 创建 的 Twitter 应 用 的 密 钥 信息 ， 再 创建 新 的 也 可 以 : 























import twitter 


Consumer_key = "<Your Consumer Key Here>" 
Consumer_secret = "<Your Consumer Secret Here>" 
access_token = "<Your Access Token Here>" 

access_token secret = "<Your Access Token Secret Here>" 


authorization = twitter.OAuth(access_token, access_token secret, 
consumer_key, consumer_secret) 
t = twitter.Twitter(auth=authorization, retry=True) 





指定 输出 文件 名 : 
import os 
data_folder = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter") 
output_filename = os.path.join(data_folder, "python tweets.json") 
依然 用 json 库 保存 数据 : 


import json 


接 下 来 ， 收 集 一 组 用 户 信 息 。 像 上 一 章 那 样 搜索 推 文 ， 查找 包含 单词 python 的 消息 。 首 先 , 创建 
两 个 列表 , 用 于 存储 消息 文本 内 容 及 相应 的 用 户 信息 。 稍 后 会 用 到 用 户 编号 ,因此 ， 需 要 创建 个 
字典 ， 将 用 户 昵称 和 编号 对 应 。 代 码 如 下 : 





























original users = [] 
tweets = [] 
user_ids = {} 


搜索 包含 python 的 消息 ， 遍 历 搜 索 结 


search _ results = t.search.tweets(q="python", 
count=100)['statuses'] 
for tweet in search results: 


我 们 只 对 消息 感 兴趣 ， 对 Twitter 可 能 返回 的 其 他 信息 不 感 兴趣 ， 因 此 检测 消息 中 有 没有 text 











三 
其) 
Le 
PT 


if 'text' in tweet: 


如 果 有 ， 记 录用 户 昵称 、 消 息 正文 ， 并且 将 用 户 昵 称 和 编号 关联 起 来 。 代 码 如 下 : 
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original users.append(tweet['user']['screen name']) 
user_ids[tweet['user']['screen name']] = 
tweet['user']['id'] 


tweets.append (tweet['text']) 


运行 上 述 代码 将 会 得 到 大 约 100 条 消息 ， 有 时 可 能 会 少 些 。 但 是 ， 这 些 消 息 并 不 是 全 都 和 编 
程 语言 有 关 。 




















7.1.1 用 现 有 模型 进行 分 类 

正如 上 一 章 所 说 ,不 是 所 有 提 到 python 的 消息 都 与 编程 语言 有 关 。 怎 么 才能 找 出 所 需要 的 消 
息 ? 上 一 章 用 过 的 分 类 器 就 能 派 上 用 场 了 。 分 类 器 虽 不 完美 , 但 使 用 它 进行 分 类 ， 能 够 过 滤 掉 搜 
索 结果 中 相当 一 部 分 噪音 。 

在 本 案例 中 ， 只 对 谈论 Python 编程 语言 的 用 户 感 兴趣 。 使 用 上 一 章 创建 的 分 类 器 找 出 与 编程 
语言 Python 相关 的 消息 。 发 表 这 类 消息 的 人 是 我 们 真正 感 兴趣 的 用 户 。 具 体 做 法 如 下 。 

首先 ,需要 保存 朴素 贝 叶 斯 分 类 模型 。 打 开 上 一 章 创 建 分 类 器 的 IPython 笔 记 本 文件 。 如 果 已 
经 关闭 ， 笔 记 本 不 记得 之 前 的 操作 ， 需 要 运行 所 有 的 代码 片段 ， 方 法 是 点 击 笔记 本 的 Cell 菜 单 ， 
选择 Run All。 


运行 完 后 ， 选 择 页 面 下 方 的 空白 格子 。 如 果 没 有 ， 选 中 最 后 一 个 格子 ， 点 击 Insert 荣 单 ， 选 
择 Insert Cell Below 选 项 。 


我 们 将 使 用 joblip 库 保存 并 加 载 模型 。 


8 久 
| joblib 包 含 在 scikit-1learn 库 中 。 ] 


首先 ， 导 入 joblib 库 ,为 模型 指定 输出 文件 名 (确保 目录 存在 ,否则 无 法 创建 )。 我 把 模型 
保存 在 我 自己 创建 的 Models 目 录 下 ， 你 也 可 以 将 其 保存 到 其 他 地 方 。 代 码 如 下 : 
















































































from sklearn.externals import joblib 
output_filename = os.path.join(os.path.expanduser ("~"), "Models", 
"twitter", "python context.pkl") 


接着 ， 用 joblib 库 的 dump 了 水 数 ， 与 json 库 的 dump 孙 数 功 能 类 似 。 参 数 为 模型 本 身 ( 怕 你 
忘 了 ， 撒 带 提 下 ， 模 型 名 称 为 nodel ) 和 输出 文件 名 。 

joblib.dump (model, output_filename) 

运行 上 述 代 码 ， 模 型 将 会 保存 到 指定 文件 中 。 接 着 ， 回 到 上 小 节 创 建 的 笔记 本 文件 ， 加 载 
异型 。 
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复制 下 面 代码 ， 在 当前 笔记 本 文件 中 再 次 指定 模型 的 文件 名 : 


model_filename = os.path.join(os.path.expanduser ("~"), "Models", 
"twitter", "python_ context .pkl") 


检查 下 这 里 的 文件 名 是 否 与 保存 模型 所 用 的 文件 名 相同 。 接 着 , 需要 重建 NUTKBOW 类 ， 因 为 
它 是 定制 的 类 ， 无 法 直接 用 joblib 加 载 。 更 好 的 处 理 方法 后 续 章 节 会 讲 。 现 在 ， 只 需 从 上 一 章 
的 代码 中 复制 整个 NurTKBOW 类 及 它 所 依赖 的 模块 : 


























from sklearn.base import TransformerMixin 
from nltk import word tokenize 


class NLTKBOW (TransformerMixin): 
def fit(self, XxX, y=None): 
return self 


def transform(self, X): 
return [{word: True for word in word tokenize(document)} 
for document in X] 


现在 ， 只 需 调 用 joblib 的 1oaq 函 数 就 能 加 载 模型 ; 


from sklearn.externals import joblib 
context_classifier = joblib.load(model_filename) 


context_classifier 与 第 6 章 的 model 对 象 功 能 相同 , 是 Pipeline 对 象 的 实例 , 它 的 三 
步骤 也 与 第 6 章 流 水 线 (NLTKBOW、DictVectorizer 和 BernoulliNB 分 类 器 ) 相同 。 


调用 context_classifier 模 型 的 predict 了 所 数 ， 预 测 消 息 是 否 与 编程 语言 相关 。 代码 
如 下 : 


y_pred = context_classifier.predict (tweets) 


如 果 第 条 消息 与 编程 语言 有 关 ， 那么 y_pred 中 的 第 斋 为 1， 否则 为 0。 据 此 ,可 以 获取 到 所 
有 与 编程 语言 有 关 的 消息 及 用 户 : 






































relevant tweets = [tweets[i] for i in range(len(tweets)) if y_pred[il] 
== 1] 

relevant_users = 
y_pred[i] == 1] 


用 我 采集 的 数据 ， 共 找到 46 名 相关 用 户 。 比 起 之 前 的 100 条 消息 /用 户 显得 有 点 少 , 但 还 是 可 
以 以 此 为 基础 来 构建 社交 网 络 。 


[original _ users[i] for i in range(len(tweets)) if 





7.1.2 ”获取 Twitter 好 友信 息 


接 下 来 ， 需 要 获得 以 上 每 个 用 户 的 好 友 。 这 里 好 友 的 定义 是 : 用 户 正 在 关注 的 人 。Twitter 
提供 了 相应 API: friends/igs, 它 好 用 的 地 方 在 于 一 次 调用 最 多 能 获得 高 达 5000 个 好 友 的 编号 ， 
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不 好 的 地 方 是 每 15 分 钟 最 多 只 能 调用 15 次 , 这 也 就 意味 着 获取 每 个 用 户 的 好 友 列 表 至 少 需要 一 分 
钟 一 一 如 果 好 友 数 量 多 于 5000， 需 要 更 多 时 间 ( 这 种 情况 比 想象 中 的 更 常见 )。 


然而 , 代码 相对 比较 简单 。 接 下 来 两 节 还 要 用 到 获取 好 友 列 表 的 功能 , 干脆 把 它 封装 成 一 个 
函数 。 首 先 ， 声 明 该 函数 ， 接 收 两 个 参数 ， 一 个 是 用 于 连接 Twitter 的 对 象 ， 男 一 个 是 用 户 编号 。 
函数 返回 由 第 二 个 参数 指定 的 用 户 的 所 有 好 友 , 创建 列表 friends 来 存储 好 友 们 的 编号 。 由 于 要 
用 到 时 间 模 块 time， 顺 便 导入 它 。 在 给 出 完整 的 函数 前 ,会 逐一 讲解 每 一 部 分 代码 。 开 始 部 分 
如 下 : 





















































import time 
def get_friends(t, user_ id): 
friends = [] 


听 起 来 有 些 奇 怪 , 很 多 Twitter 用 户 拥有 5000 个 以 上 的 好 友 。 因 此 ， 要 用 到 Twitter 的 pagination 
(分 页 ) 对 象 。Twitter 使 用 游标 管理 多 页 数据 。 当 向 Twitter 请 求 数据 时 ， 不 仅 返 回 所 需 数据 ， 还 
返回 数据 类 型 为 整数 的 游标 ，Twitter 用 游标 跟踪 每 一 次 请 求 。 如 果 没 有 更 多 内 容 ， 游 标 为 0; 否 
则 ， 可 以 使 用 游标 获得 下 一 页 数据 。 开 始 把 游标 设置 为 -1， 表 明 是 数据 的 开始 : 


CGT SS: 二 


接 下 来 ， 只 要 游标 不 为 0 ( 当 为 0 时 ， 数 据 已 采集 完 )， 就 持续 执行 下 面 的 循环 。 请 求 用 户 的 
好 友 数 据 ， 并 将 这 些 好 友 的 编号 添加 到 friends 列 表 中 。 这 里 用 到 了 try 语 句 ， 请 求 过 程 中 可 能 
会 遇 到 问题 ， 使 用 try 以 便于 处 理 异 常 。results 字 典 中 键 为 iqs 的 那 一 项 保存 的 是 好 友 编 号 ， 
将 好 友 编 号 添加 到 friends 列 表 中 。 然 后 ， 更 新 游标 。 下 一 次 迭代 时 ， 游 标 使 用 刚 更 新 过 的 值 。 
最 后 ， 检 查 好 友 数 量 是 否 超过 一 万 ， 如 果 超 过 ， 跳 出 循环 。 代 码 如 下 : 







































































while cursor != 0: 
Ee 
results = t.friends.ids(user_ id= user_igd, 
Cursor=cursor, count=5000) 
friends.extend([friengd for friend in results['ids']] 
cursor = results['next_cursor'] 
if len(friends) >= 10000: 
break 


这 里 有 必要 插入 条 警告 信息 。 从 互联 网 抓 取 数 据 ,可 能 会 时 不 时 遇 到 这 样 那 

了 样 奇 怪 的 事情 。 我 在 编写 上 面 这 段 代码 时 遇 到 的 一 个 问题 是 有 些 用 户 好 友 异 党 

Q 多 。 为 了 应 对 这 个 问题 ,代码 中 增加 了 安全 退出 机 制 ， 用户 好 友 再 多 ， 只 要 获取 
到 他 的 一 万 名 好 友信 息 后 就 强制 退出 。 如果 想 采集 用 户 的 所 有 好 友 , 请 删 掉 这 两 
行 ， 但 是 请 注意 碰巧 遇 到 好 友 特别 多 的 用 户 ， 会 卡 很 长 时 间 。 
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接着 为 可 能 捕获 到 的 异常 编写 处 理 方法 。 最 可 能 犯 的 错误 是 不 小 心 达到 了 API 访 问 次 数 的 上 
限 (虽然 sleep 语 句 可 以 在 一 定 程度 上 避免 这 种 情况 , 但 在 sleep 语 句 结 束 前 ,中止 代 码 执行 后 ， 
接着 在 原本 应 该 停顿 的 时 间 重 新 运行 代码 ， 就 会 出 现 这 种 情况 )。 这 样 的 话 ， 返 回 结 果 results 
为 None， 代 码 会 抛 出 TrypeError (类 型 错误 ) 异常 。 遇 到 这 种 情况 ， 等 待 五 分 钟 ， 再 次 执行 新 
一 轮 循环 , 希望 Twitter 能 够 重新 计算 时 间 ， 这 样 在 接 下 来 的 15 分 钟 就 又 能 请 求 15 次 数据 。 除 此 之 
外 ， 可 能 还 有 其 他 原因 引发 的 TypeError 异 常 。 对 于 这 种 异常 , 需要 单独 处 理 ， 因 此 需要 返回 具 
体 错误 信息 ,方便 查找 错误 起 因 。 代 码 如 下 : 
except TypeError as e: 
if results is None: 
print ("You probably reached your API limit, 
waiting for 5 minutes") 
sys.stdout.flush() 
time.sleep(5*60) # 5 minute wait 


else: 
raise e 


第 二 类 异常 可 能 发 生 在 Twitter 这 一 端 ， 比 如 查找 的 用 户 不 存在 或 是 其 他 和 数据 相关 的 错误 。 
这 时 , 不 要 再 尝试 继续 获取 导致 报错 的 用 户 的 好 友 数 据 , 返回 已 经 得 到 的 即 可 (很 可 能 为 0 )。 代 
人 码 如 下 : 






































except twitter.TwitterHTTPError as e: 
break 


接着 处 理 API 限 制 。Twitter 只 人 允许 每 15 分 钟 调用 15 次 获取 用 户 好 友 数 据 的 函数 ，15 次 过 后 ， 
需要 等 一 分 钟 再 继续 进行 。 把 这 段 代码 放 到 finally 语 句 中 ， 遇 到 异常 后 ， 也 会 执行 : 


finally: 
time.sleep(60) 


函数 最 后 返回 所 采集 到 的 好 友 编 号 : 
return friends 


下 面 是 完整 的 函数 : 

















import time 
def get_friends(t, user_id): 


friends = [] 

GUESOE =" =. 

while cursor != 0: 
EA 


results = t.friends.ids(user_id= user_ig, 
cursor=cursor, count=5000) 
friends.extend([friengd for friend in 
results['ids']]) 
Cursor = results['next_cursor'] 
if len(friends) >= 10000: 
break 
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except TypeError as e: 
if results is None: 
print ("You probably reached your API limit, 
waiting for 5 minutes") 
sys.stdout.flush!() 
time.sleep(5*60) # 5 minute wait 
else: 
raise e 
except twitter.TwitterHTTPError as e: 
break 
finally: 
time.sleep(60) 
return friends 


7.1.3 ”构建 网 络 


现在 着 手 构 建 网 络 。 从 最 初 的 46 名 ( 你 得 到 的 数据 集 可 能 与 我 的 有 差异 ) 用 户 出 发 ,找到 每 
个 人 的 好 友 ， 将 其 保存 到 字典 里 ( 从 user_ia 字 典 拿 到 用 户 编号 ): 




















friends = {} 

for screen name in relevant users: 
user_id = user_ids[screen name] 
friends[user_id] = get_friends(t, user_id) 


删除 没有 好 友 的 孤 家 寡人 。 对 于 这 些 人 , 无 法 按照 既定 逻辑 向 他 们 推荐 好 友 。 也 许可 以 从 他 
们 发 表 的 消息 以 及 关注 他 们 的 人 那里 发 现 有 用 线索 。 感 兴趣 的 读者 可 自行 研究 ， 限于 篇 幅 ， 本章 
不 过 多 涉及 。 把 这 些 人 过 滤 掉 。 代 码 如 下 : 








friends = {user_id:friends[user_ id] for user_id in friengds 
if len(friends[user_id]) > 0} 


这 样 能 剩 下 30 到 50 个 用 户 ， 具体 数量 与 你 之 前 的 搜索 结果 有 关 。 这 些 不 大 够 用 , 得 想 办 法 再 
抓 取 些 数据 ， 使 总 用 户 增加 到 150 个 。 下 面 的 代码 运行 起 来 要 费 点 时 间 一 一 由 于 Twitter API 的 限 
制 , 一 分 钟 只 能 取 到 一 个 用 户 的 好 友 数 据 。 不 用 算 也 知道 150 个 用 户 数据 ,需要 150 分 钟 ， 也 就 是 
2.5 个 小 时 。 既 然 要 花 这 么 多 时 间 来 采集 用 户 的 好 友 数 据 ， 得 保证 这 些 用 户 是 想 要 的 才 行 。 


那么 ， 什 么 用 户 才 是 想 要 的 呢 ? 考虑 到 要 根据 共同 的 好 友 向 用 户 推荐 他 们 可 能 感 兴趣 的 人 ， 
因此 就 查找 有 共同 好 友 的 人 。 找到 现 有 用 户 的 好 友 , 从 他 们 中 间 找 出 在 现 有 用 户 中 间 有 更 多 好 友 
的 人 。 因 此 ， 需 要 统计 这 些 用 户 的 好 友 数 量 ， 即 出 现在 已 有 用 户 的 frienas 列 表 中 的 次 数 。 从 事 
数据 挖掘 任务 时 ,确定 采样 策略 前 ,考虑 好 应 用 的 实际 目标 很 有 必要 。 这 里 向 相似 的 用 户 推荐 好 
友 更 可 行 。 


有 具体 做 法 为 遍历 所 有 用 户 的 好 友 列 表 ， 统 计 每 个 好 友 的 出 现 次 数 : 



























































from collections import defaultdict 
def count_friengds (friends): 
friengd count = defaultdict (int) 
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for frieng list in friendqs.values() : 
for friengd in friengd list: 
friend_ count[friend] += 1 
return friend_ count 


计算 完成 后 ,根据 好 友 数 量 对 friengd_count 字 典 进行 排序 ， 找 到 在 当前 用 户 中 ,关系 网 最 
大 、 最 密集 的 人 。 代 码 如 下 : 


friend_ count 








reverse=True) = count_ friends (friends) 
from operator import itemgetter 
best_friends = sorted(friend count.items(), key=itemgetter(1), 





建立 一 循环 , 竣 够 150 个 用 户 的 好 友 数 据 后 , 该 循环 就 会 结束 。 遍历 best_friends 字 典 ( 按 
照 在 现 有 用 户 中 的 好 友 数 多 少 排序 ), 找到 还 没有 获取 好 友 列 表 的 用 户 , 然后 获取 他 的 好 友 列 表 ， 
更 新 friends 列 表 。 最 后 ， 青 次 查找 谁 是 最 受 欢迎 的 ”: 


while lenl(friends) < 150: 

for user_id, count in best_friends: 

if user_id not in friends: 

break 

friends[user_id] = get_friends(t, user_id) 
for friend in friendsl[user_ id]: 

friend count[friend] += 1 
best_friends = sorted(friengd count.items(), 

key=itemgetter(1), reverse=True) 


运行 结束 后 ， 就 可 以 得 到 150 名 用 户 的 好 友 数 据 。 


























y 可 能 想 把 最 大 循环 数 设置 得 小 一 点 , 比如 40 或 50( 甚至 可 以 先 跳 过 这 部 分 
Re a 先 鼓 完 本 章 科 感觉 下 效果 如 何 。 再 把 循环 数 设置 为 150， 等 待 几 
个 小 时 ， 再 来 看 一 下 结 





鉴于 上 述 采集 数据 的 程序 大 约 要 运行 两 个 小 时 , 最 好 把 中 间 结 果 保 存 下 来 ,因为 有 时 不 得 不 
关闭 计算 机 。 使 用 json 库 ， 就 可 以 轻松 把 好 友 字 典 保存 到 文件 里 : 

import json 

friends_filename = os.path.join(data_folder, "python friends.json") 


with openl(friends_filename, 'w') as outf: 
json.dump (friends, outf) 


使 用 json.1oad 了 水 数 ， 从 文件 中 加 载 数 据 : 


with open(friends_filename) as inf: 
friends = json.load(inf) 


























QD friend_count 字 上 典 更 新 后 ， 刚 刚 找到 的 好 友信 息 已 经 被 包括 进来 了 。 一 一 译 者 注 


112 第 7 章 用 图 挖掘 找到 感 兴趣 的 人 





7.1.4 创建 图 





到 现在 为 止 ， 已 经 拿 到 了 用 户 列表 和 他 们 的 好 友 列 表 , 很 多 用 户 是 其 他 用 户 的 好 友 。 用 这 些 
存在 好 友 关 系 的 数据 就 能 构建 一 张 图 ( 虽然 这 里 好 友 关 系 不 必 是 双向 的 )。 


由 一 组 顶点 和 边 组 成 。 顶 点 通常 表示 对 象 一 一 在 这 个 例子 中 ,顶点 代表 用 户 。 边 表示 用 户 
A 是 用 户 B 的 好 友 。 由 于 顶点 的 顺序 是 有 特殊 含义 的 ， 该 图 称 为 有 向 图 ， 因 为 用 户 A 是 用 户 B 的 好 
友 并 不 代表 用 户 B 是 用 户 A 的 好 友 "。 可 以 用 Networkx 库 实现 图 关系 的 可 视 化 。 


| 全 可 以 用 pip 安 装 NetworkX 库 : pip3 install networkxo | 









































首先 ， 使 用 NetworkX 创 建 有 向 图 。 根 据 习惯 ， 导 入 NetworkX 后 给 它 一 个 简称 nx (虽然 不 
是 必须 这 么 做 ) 。 代 码 如 下 : 











import networkx as nx 
G = nx.DiGraph() 


我 们 只 将 150 名 核心 用 户 彼 此 间 的 好 友 关系 绘制 成 图 像 ”, 其 他 好 友 关 系 由 于 数据 量 很 大 难以 
可 视 化 (成 于 上 万 个 ， 作 图 有 难度 )。 把 核心 用 户 作为 顶点， 添加 到 图 中 。 代 码 如 下 : 




















main users = friends.keys() 

G.adqd_ nodes_from(main users) 

接着 要 创建 边 。 如果 第 二 个 用 户 是 第 一 个 用 户 的 好 友 , 那么 就 在 这 两 个 顶点 之 间 建 立 一 条 边 。 
遍历 所 有 的 核心 用 户 : 


for user_id in friengds: 
for friend in friends[user id]: 


确保 好 友 在 核心 用 户 之 列 ( 当下 先 不 关注 非 核心 用 户 ), 然后 为 两 者 之 间 添 加 边 。 代 码 如 下 : 


if friend in main users: 
G.add edge (user_id, friend) 


用 Networkx 的 araw 图 数 为 创建 好 的 图 绘制 图 像 ，araw 函 数 要 用 到 matplotlib 库 。 在 当前 
笔记 本 文件 中 作 图 ， 需 要 使 用 inline 函 数 。 代 码 如 下 : 








smatplotlib inline 
nx.draw (G) 





























@ 这 里 的 “好 友 ” 译 成 “关注 的 人 ”更 好 理解 ， 表 示 一 种 单 向 关系 。 其 实在 现实 生活 中 ,也 存在 这 种 “ 单 相 思 ” 的 

情况 ， 你 把 他 人 当成 是 最 好 的 朋友 ， 人 家 未 必 如 此 。 一 一 译 者 注 
@) 注意 这 里 “图 像 ”和 “图 ”的 区 别 ， 前 者 指 的 是 绘画 、 可 视 化 意义 上 点 、 线 条 等 形状 的 组 合 。 后 者 是 一 种 抽象 的 
数据 结构 。 文 中 “ 作 图 ”表示 绘制 图 像 。 译 者 注 
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生成 的 图 像 理 解 起 来 有 点 困难 ; 有 几 个 顶点 之 间 边 较 少 , 但 大 多 数 顶 点 之 间 边 较 多 。 

















可 以 借助 用 于 处 理 图 像 生 成 的 pyplot 函 数 设 置 图 像 大 小 。 导 入 pyplot， 把 图 像 尺 寸 设 置 得 
大 一 点 ， 调 用 NetworkxX 的 araw 辑 数 ( Networkx 使 用 pyplot 陶 数 作 图 ): 
from matplotlib import pyplot as plt 


plt.figure(3,figsize=(20,20)) 
nx.draw(G, alpha=0.1, edge_color='b') 


生成 的 图 像 太 大 一 页 放 不 下 , 但 是 大 图 像 的 好 处 是 : 图 的 轮廓 看 得 更 清楚 。 在 我 创建 的 图 中 ， 
一 部 分 用 户 互 为 好 友 , 但 是 其 他 绝 大 部 分 用 户 之 间 不 存在 好 友 关 系 。 我 将 上 述 代码 中 的 alpha 设 
置 得 很 小 ， 这 样 边 的 颜色 就 为 蓝 色 ， 将 上 图 放大 后 从 中 间 位 置 截取 了 下 面 这 张 图 。 


如 你 所 见 ， 中 间 位 置 各 顶点 之 间 连 接 有 多 紧密 ! 
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这 与 我 们 选择 新 用 户 的 方法 有 关 一 一 选择 那些 已 经 在 图 中 有 着 丰富 连接 的 用 户 , 因此 他 们 可 
能 只 会 把 这 个 圈子 扩展 得 更 大 些 。 一 般 而 言 ， 一 个 社交 网 络 用 户 所 拥有 的 连接 数 遵 循 贿 定律 。 只 
有 人 少数 用 户 拥有 很 多 连接 数 , 大 部 分 用 户 只 有 很 少 的 连接 数 , 描述 这 种 关系 的 函数 图 像 呈 现 出 长 
尾 形 状 。 这 里 的 数据 集 不 遵从 该 客 定 律 ， 因 为 后 来 的 核心 用 户 产 生 于 已 有 核心 用 户 的 共同 好 友 。 
































7.1.5 创建 用 户 相 似 度 图 


本 童 的 任务 是 向 拥有 共同 好 友 的 用 户 推荐 彼此 。 青 次 重申 ,逻辑 是 : 如 果 两 个 用 户 有 共同 的 
好 友 ， 那 么 这 两 个 用 户 高 度 相似 。 那 么 ， 可 以 向 他 们 推荐 彼此 。 


在 现 有 图 ( 边 表示 关注 关系 ) 基础 上 创建 一 个 新 图 。 新 图 中 ， 顶 点 仍然 是 用 户 ， 边 要 升级 为 
带 权 重 的 。 带 权重 的 边 指 的 是 边 有 了 权重 属性 。 权 重 越 大 表明 两 顶点 相似 度 越 高 。 但 是 ,权重 与 
应 用 场景 有 关 。 如 果 权 重 代表 距离 ， 那 么 权重 越 低 表示 相似 度 越 高 。 


对 于 这 个 应 用 , 边 的 权重 表示 由 该 条 边 所 连接 的 两 个 用 户 之 间 的 相似 度 ( 以 共同 好 友 数 量 为 
基础 )。 新 图 中 的 边 没有 方向 性 ， 因 为 A 和 B 之 间 的 相似 度 等 于 B 和 A 之 间 的 相似 度 。 


计算 两 个 列表 之 间 的 相似 度 有 多 种 方法 。 就 拿 我 们 这 里 的 两 个 用 户 来 说 , 可 以 简单 统计 他 们 
好 友 列 表 中 共同 好 友 数 量 。 然而 , 这 样 做 有 个 问题 : 好 友 更 多 的 用 户 , 共同 好 友 数 量 通常 也 更 多 。 
于 是 ， 可 以 再 除 以 他 们 拥有 的 不 同好 友 的 数量 实现 数据 的 规范 化 ， 得 到 的 正 是 杰 卡 德 相似 系数 


(Jaccard Similarity )。 
杰 卡 德 相 似 系数 总 是 在 0 到 1 之 间 ， 代 表 两 者 重合 的 比例 。 正 如 第 2 章 讲 到 的 ， 规 范 化 是 数据 
挖掘 的 一 个 重要 方法 ， 要 坚持 使 用 ( 除非 有 充分 理由 不 这 样 做 )。 
在 计算 杰 卡 德 相似 系数 时 , 需要 用 两 个 集合 ( 好友 数据 ) 交集 的 元 素数 量 除 以 两 个 集合 并 集 
的 元 素数 量 。 这 里 要 用 到 集合 操作 , 但 是 好 友 数 据 存储 在 frienas 列 表 中 , 所 以 首先 要 把 列表 转 
换 为 集合 。 代码 如 下 : 
friends = {user: set (friends[user]) for user in friends} 


创建 一 函数 ”"， 计 算 两 个 好 友 集 合 之 间 的 相似 度 : 


def compute_ similarity (friendsl, friends2): 
return len(friendsl1 & friends2) / len(friendsl1 | friends2) 


现在 就 可 以 创建 加 权 图 。 本 章 后 面 会 多 次 用 到 创建 图 的 功能 ， 因 此 将 其 封装 成 函数 ,留意 下 
threshold 参 数 ; 





















































































































































def create graph (followers, threshold=0): 
G = nx.Graph() 




















Qa 注意 函数 体 return 语 句 需 要 缩 进 。 一 一 译 者 注 
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使 用 让 套 循环 遍历 用 户 数据 ， 跳 过 两 层 循环 中 用 户 相同 的 情况 : 


for user1l in friends.keys(): 
for user2 in friends.keys(): 


if userl == user2: 
continue 
计算 两 个 用 户 之 间 边 的 权重 : 


weight = compute_ similarity (friends [user1]， 
friends[user2]) 


只 有 边 的 权重 大 于 阔 值 , 才 会 保存 这 条 边 ， 以 确保 只 保存 我 们 认为 重要 的 边 一 一 例如 ,权重 
为 0 的 边 就 没 意 义 。 阔 值 默 认为 0， 因 此 会 添加 所 有 的 边 。 本 章 稍 后 再 指定 一 个 合理 的 阔 值 ， 先 这 
么 用 着 吧 。 代 码 如 下 : 


if weight >= thresholgd: 


如 果 权 重大 于 等 于 闵 值 ， 把 两 个 用 户 添加 到 图 中 ( 如 果 已 经 存在 ,不 要 重复 添加 ): 





G.add_node (user1) 
G.add_node (user2) 


然后 为 这 两 个 用 户 之 间 添 加 边 ， 把 权重 设置 为 刚 计算 出 来 的 相似 度 : 





G.add edge (userl1l, user2, weight=weight) 


循环 结束 后 ， 图 创建 完毕 ， 返 回 该 图 : 








return G 


调用 上 述 函 数 就 能 生成 一 个 图 。 由 于 没有 设置 阔 值 ， 即 使 权重 为 0 的 边 ， 也 被 创建 出 来 。 代 
人 码 如 下 : 








G = create graph (friends) 








我 们 创建 的 图 各 顶点 之 间 连 接 得 很 紧密 一 一 所 有 顶点 之 间 都 有 边 ， 虽 然 很 多 边 的 权重 为 0。 
在 作 图 时 ， 可 以 根据 边 的 权重 来 指定 所 用 线条 的 粗细 一 一 粗 线 表 示 权 重大 。 

由 于 顶点 数量 较 多 ， 作 图 时 考虑 适当 增加 图 像 尺 寸 ， 顶 点 之 间 的 边 看 上 去 会 更 加 清楚: 

plt.figure (figsize=(10,10)) 

在 绘制 带 权 重 的 边 之 前 ， 需 要 先 画 出 顶点 。Networkx 根 据 特 定 标 准 用 布局 信息 来 决定 顶点 
和 边 的 位 置 。 绘 制 网络 图 很 困难 ， 特 别 是 顶点 数量 较 多 时 ,虽然 有 很 多 现成 的 布局 方式 , 但 是 否 




















好 用 很 大 程度 上 取决 于 你 的 数据 集 、 个 人 喜好 及 作 图 目的 。 我 发 现 spring_1layout 非 常 好 用 ， 
除 此 之 外 ,还 有 circular_layout( 如 果 其 他 方式 不 好 用 ,还 可 以 试 试 这 个 )、random_layout、 
shell layout 和 spectral_lavout。 
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访问 http://networkx.lanl.gov/reference/drawing.html, 了 解 更 多 Networkx 布 局 
方法 。 虽 然 用 draw_graphviz 选 项 使 复杂 程度 有 所 增加 ， 但 效果 很 好 ， 如 果 追 
求 更 好 的 视觉 效果 ， 值 得 研究 一 下 ， 可 考虑 将 其 用 到 实际 工作 中 。 


使 用 spring_layout 布 局 方法 : 
pos = nx.spring_layout (G) 


使 用 pos 布 局 方法 ， 确 定 顶 点 位 置 : 





nx.draw_networkx_nodes (G, pos) 


接 下 来 ,绘制 边 。 遍 历 图 中 的 每 条 边 ， 获 得 其 权重 : 








edgewidth = [ dl['weight'] for (u,v,d) in G.edges (data=True)] 


绘制 各 条 边 : 


nx.draw_networkx_edges (G, pos, width=edgewidth) 








最 终 图 像 具 体 长 什么 样 取决 于 你 的 数据 , 但 大 体形 状 应 该 与 我 的 一 致 : 
较 多 连接 ， 少 数 顶 点 与 网 络 其 他 顶点 之 间 连 接 较 少 。 
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图 中 大 量 顶 点 之 间 有 





























与 本 章 前 一 个 图 的 区 别 在 于 : 该 图 顶点 之 间 的 边 表示 的 是 相似 度 而 不 再 是 好 友 关 系 ( 虽然 这 








两 者 有 相似 之 处 )。 可 以 从 当前 这 个 图 中 抽取 信息 用 于 好 友 推 荐 。 





7.2 “寻找 子 图 117 





7.2 寻找 子 图 


利用 相似 度 函 数 求 出 每 个 用 户 与 其 他 用 户 之 间 的 相似 度 , 根据 相似 度 进行 排序 , 找 出 与 当前 
用 户 最 相似 的 ,把 他 推荐 给 当前 用 户 一 一 与 推荐 产品 时 的 做 法 相同 。 然而 , 我 们 也 可 以 找 出 批量 
相似 度 很 大 的 用 户 。 可 以 建议 将 这 些 用 户 组 成 一 个 群 ， 向 他 们 定向 投放 广告 , 或 者 即使 只 是 向 他 
们 推荐 群 内 的 其 他 成 员 做 好 友 。 


找 出 这 些 相 似 用 户 群 的 任务 叫 作 聚 类 分 析 。 它 的 复杂 程度 一 般 分 类 算法 比 不 了 , 可 以 说 具有 
一 定 难 度 。 例 如 ,评价 分 类 结果 相对 比较 容易 一 一 比较 使 用 分 类 带 得 到 的 结果 与 实际 结果 ( 训练 
集 ) 就 能 知道 正确 率 。 但 是 聚 类 分 析 缺 乏 这 样 一 个 事实 标准 ,评价 结果 时 ， 只 好 根据 经 验 来 看 分 
簇 结 果 是 否 合乎 情理 。 只 类 分 析 男 一 个 复杂 之 处 在 于 , 不 能 用 事先 标注 好 的 数据 进行 训练 一 一 只 
好 在 使 用 聚 类 数学 模型 的 基础 上 , 求 得 近似 的 分 组 结果 , 而 不 是 按照 用 户 所 期 望 的 那样 将 数据 分 
为 一 个 个 明确 的 类 别 。 


















































7.2.1 连通 分 支 
一 种 最 简单 的 聚 类 方法 就 是 找到 图 中 的 连通 分 支 。 一 个 连通 分 支 是 图 中 由 边 连 接 在 一 起 的 









































一 组 顶点 ， 不 要 求 顶 点 之 间 必 须 两 两 连接 。 但 是 ， 连 通 分 支 的 任意 两 个 顶点 之 间 ， 至 少 存在 一 
条 路 径 。 


连通 分 支 计算 时 不 考虑 边 的 权重 ; 只 检查 边 是 否 存 在 。 因 此 ,下面 代码 将 删 
除权 重 过 低 的 边 。? 


Networkx 提 供用 于 计算 连通 分 支 的 函数 ,在 图 上 调用 即 可 。 首 先 ， 用 前 面 定义 的 
create_graph 国 数 创建 一 个 新 图 ， 但 这 次 指定 净值 为 0.1， 只 保留 权重 至 少 为 0.1 的 边 。 


G = create_graph(friendqs，0.1) 
接着 使 用 NetworkX 提 供 的 函数 寻找 图 中 的 连通 分 支 : 


sub_graphs = nx.connected component_subgraphs (G) 


为 了 了 解 连通 分 支 到 底 有 多 大 ， 换 历 找到 的 连通 分 文 ， 输 出 其 基本 信息 : 






































for i, sub_graph in enumetrate(sub_graphs) : 
n_nodes = len(sub_graph.nodqes () ) 
print ("Subgraph {0} has {1} nodqes" .format (i, n_nodes)) 


从 输出 结果 ， 就 能 了 解 到 每 个 连通 分 支 有 多 大 。 在 本 例 中 ,大 的 子 图 有 62 个 用 户 ,很 多 小 子 


























GD 因为 不 论 权 重 高 低 ， 只 要 有 边 连 接 的 顶点 就 会 被 算 到 连通 分 支 里 ， 而 一 个 连通 分 支 被 看 作 是 一 侨 具 有 相似 特点 的 
j 户 ， 为 了 保证 篮 内 用 户 具有 较 高 的 相似 度 ， 需 要 事先 把 权重 低 的 边 过 滤 掉 。 一 一 译 者 注 
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图 只 有 十 几 个 甚至 更 少 的 用 户 。 


可 以 通过 调整 闪 值 ， 找 出 不 同 的 连通 分 支 。 这 是 因为 阔 值 越 高 ， 顶 点 之 间 的 边 越 少 ， 因 此 和 连 
通 分 支 规模 更 小 ， 数 量 更 多 。 设 置 更 高 的 阔 值 ， 看 看 效果 : 





























G = create graph (friends, 0.25) 
sub_graphs = nx.connected component_subgraphs (G) 
for i, sub_graph in enumerate(sub_graphs): 
n_nodes = lenl(sub_graph.nodes()) 
print ("Subgraph {0} has {1} nodes".format (i, n_nodes)) 


上 述 代码 找到 的 连通 分 支 数 量 多 , 每 个 连通 分 支 所 包含 的 项 点 数量 少 。 之 前 那个 最 大 的 子 图 
至 少 被 拆 为 三 个 部 分 ， 每 部 分 都 不 超过 10 个 用 户 。 下 图 为 其 中 一 个 连通 分 支 , 边 也 画 出 来 了 。 
为 这 是 一 个 连通 分 支 ， 所 以 它 里 面 的 顶点 跟 大 图 中 其 他 顶点 之 间 不 存在 边 〈 阔 值 至 少 为 0.25 )。 




































































可 以 用 不 同 的 颜色 把 所 有 连通 分 支 都 画 出 来 。 因为 各 连通 分 支 之 间 没 有 连接 ,因此 没 必要 把 
它们 画 到 一 张 图 中 。 顶点 和 连通 分 支 没 有 确定 位 置 , 把 它们 画 到 一 张 图 上 , 反而 会 令 人 产生 误解 ， 
以 为 它们 之 间 的 位 置 关系 是 确定 的 。 鉴 于 此 ， 我 们 可 以 把 它们 夯 到 不 同 的 图 上 。 

在 新 单元 格 中 ， 获 得 连通 分 支 及 它们 的 总 数量 。 


sub_graphs = nx.connected component_subgraphs (G ) 
n_subgraphs = nx.number_connected components (G) 



































上 述 代 码 中 ，sub_graphs 是 生成 器 而 不 是 连通 分 支 列 表 。 因 此 ， 需 要 用 

nx.number_connected_components 找 出 连通 分 支 的 总 数 ; 由 于 NetworkX 

一 存储 信息 的 方式 比较 特别 ， 无 法 使 用 1en 函 数 。 这 正 是 重新 计算 连通 分 支 的 原 
因 所 在 。 














要 显示 所 有 的 连通 分 支 ， 图 像 得 足够 大 。 在 用 pyplot 绘 制图 像 时 ， 让 图 像 大 小 随 着 连通 分 
文 数量 的 增加 而 增加 : 


fig = plt.figure(figsize=(20, (n_subgraphs * 3))) 
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接 下 来 ， 遍 历 所 有 的 连通 分 支 ， 为 每 
图 的 行 数 、 图 的 列 数 及 图 所 在 位 置 。 我 作 图 时 使 用 了 三 列 ， 你 可 以 学 
数 和 列 数 ): 


for i, 

















sub_graph in enumerate(sub_grap 
ax = fig.add_ subplot (int (n_subgrap 


hs): 
Re 3) 





3 二) 


pyplot 默 认 显 示 坐 标 轴 标 签 ， 在 这 里 没有 实际 意义 。 因 此 把 这 个 功能 关 掉 : 


ax.get_xaxis() 
ax.get_yaxis() 


然后 再 绘制 顶点 和 边 


.Set_visible(False) 
.Set_visible(False) 


( 用 ax 参 数 绘制 相应 的 子 图 )。 绘 图 之 前 需要 设置 好 布局 : 


绘 人 








pos = nx.spring_layout (G) 


nx.draw_networkx_nodes(G, pos, sub_graph.nodes(), 









































ax=ax, 
node_size=500) 
nx.draw_networkx_edges (G, pos, sub_graph.edges(), ax=ax) 
从 图 像 中 就 能 了 解 到 各 连通 分 支 顶点 数量 及 连接 方式 。 
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7.2.2 ”优化 参数 选取 准则 
通 分 支 查找 算法 依赖 于 阔 值 参数 , 由 其 决定 是 否 在 图 中 添加 边 。 换 名 话说 ， 闪 值 探 人 











个 连通 分 支 作 图 。adq_subplot 的 几 个 参数 分 别 为 
尝试 其 他 值 ( 记得 同时 修改 行 




















到 的 ey 分 支 数量 和 连通 分 支 的 大 小 。 
观 性 很 强 ， 没有 明确 的 答案 。 























它 是 任何 聚 类 分 析 任 务 都 要 面 对 的 一 个 主要 问题 。 


判 着 找 


既然 闷 值 如 此 关键 , 闵 值 多 大 才 是 最 合适 的 ?这 个 问题 主 
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然而 , 我 们 可 以 事先 确定 什么 样 的 结果 才 是 令 人 满意 的 , 再 根据 理想 中 的 结果 来 寻找 选取 参 
数 的 准则 。 作 为 一 般 性 规则 ， 它 应 该 能 够 使 得 : 
口 同一 复 (连通 分 支 ) 内 的 个 体 尽 可 能 相似 
口 不 同 簇 内 的 个 体 尽 可 能 不 相似 
轮廓 系数 ( Silhouette Coefficient ) 就 是 一 种 对 上 述 两 点 的 量化 方法 。 给 定 一 个 个 体 ， 其 轮廓 
系数 定义 如 下 : 





























b-a 


RY = 
max(a,b) 


其 中 4 为 化 内 距离 ,表示 与 簇 内 其 他 个 体 之 间 的 平均 距离 。2b 为 禾 间 距离 ,也 就 是 与 最 近 艇 内 各 个 
个 体 之 间 的 平均 距离 。 


总 轮廓 系数 为 每 个 个 体 轮廓 系数 的 均值 。 总 轮廓 系数 接近 最 大 值 1 时， 表示 每 个 簇 内 的 个 体 
相似 度 很 高 ， 不 同 簇 之 间距 离 较 远 。 总 轮廓 系数 接近 0 时 ， 表 示 所 有 的 簇 重 合 在 一 起 ， 各 艇 之 间 
距离 很 小 。 总 轮廓 系数 接近 最 小 值 -1 时 ,表示 个 体 出 现在 错误 的 复 内 ,把 它们 分 到 其 他 簇 效 果 可 
能 会 更 好 。 

利用 这 种 选取 准则 ， 找 到 一 种 解决 方案 (找到 合适 的 冰 值 )， 通 过 调整 闵 值 ， 使 总 轮廓 系数 
达到 最 大 值 。 为 此 ， 创 建 一 函数 ， 接 收 阔 值 ， 计 算 总 轮廓 系数 。 

然后 ， 把 它 传 给 SciPy 的 opt imize 模 块 的 minimi ze 也 数 ， 该 函数 通过 调整 参数 值 ， 找 到 函 
数 的 最 小 值 。 但 我 们 想 最 大 化 总 轮廓 系数 ， 可 SciPy 没 有 提供 寻找 最 大 值 的 函数 。 因 此 ， 对 总 轮 
廓 系数 取 反 后 再 找 最 小 值 〈 与 直接 求 最 大 值 是 一 回 事 )。 







































































scikit-learn 库 提供 计算 轮廓 系数 的 函数 sklearn.metrics.silhouette_score, 但 是 
它 与 SciPy 的 minimize 函 数 所 要 求 的 形式 不 一 臻 。minimize 也 数 要 求 变量 参数 ( 闵 值 ) 在 其 他 
参数 的 前 面 。 这 就 需要 把 friendqs 字 典 传 进去 计算 图 。 函 数 声明 如 下 : 


























def compute_silhouette(threshold, friends): 
使 用 阔 值 参数 创建 图 后 ， 检 查 它 是 否 至 少 有 两 个 顶点 : 


G = create graph (friends, threshold=threshold) 
if len(G.nodes()) < 2: 


轮廓 系数 的 定义 要 求 至 少 有 两 个 项 点 (才能 计算 距离 )。 如 果 少 于 两 个 顶点 ， 认 为 这 个 问题 
无 效 ， 没 法 计算 下 去 。 有 几 种 处 理 方法 ， 最 简单 的 是 返回 一 个 很 小 的 值 。 轮 廓 系数 最 小 值 为 -1， 
返回 -99， 表 明 问 题 无 效 。 任 何 有 效 的 值 都 比 这 个 值 大 很 多 。 代 码 如 下 : 

















return -99 
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然后 抽取 连通 分 文 : 
sub_graphs = nx.connected component_subgraphs (G) 


轮廓 系数 的 定义 还 要 求 至 少 有 两 个 连通 分 文 (才能 计算 不 同 艇 之 间 的 距离 )， 并 且 至 少 其 中 
一 个 连通 分 支 有 两 个 顶点 (计算 徐 内 距离 )。 检测 这 些 条 件 是 否 满足 ， 如 果 不 满足 ， 返 回 无 效 值 。 
代码 如 下 : 

if not (2 <= nx.number_connected components() < lenl(G.nodes()) 
a 
return -99 

接着 , 需要 获取 标识 着 项 点 被 分 到 哪个 连通 分 支 的 标签 。 遍 历 所 有 的 连通 分 支 ， 用 字典 保存 
顶点 及 其 所 属 的 连通 分 支 。 代 码 如 下 : 

label_dict = {} 

for i, sub_graph in enumerate (sub_graphs): 


for node in sub_graph.nodes(): 
label_dict[lnode] = i 


遍历 图 中 所 有 顶点 ， 依 次 获取 到 每 个 顶点 的 标签 。 需 要 分 两 步 来 做 ， 先 按 一 定 顺序 取 到 图 ， 
再 遍历 。 因 为 图 中 顶点 没有 明确 的 顺序 , 但 是 只 要 没有 改动 图 , 顶点 会 维持 现 有 顺序 。 这 就 表明 ， 
只 要 没有 改动 图 ， 在 图 上 调用 .nodqes () 方 法 ， 返 回 的 顶点 顺序 总 是 一 致 的 。 代 码 如 下 : 

































































labels = np.array ([label dict[lnode] for node in G.nodes()]) 


注意 ,轮廓 系数 函数 接收 的 是 距离 矩阵 ， 而 不 是 图 。 因 此 ， 要 想 办 法 把 图 转换 为 矩阵 ， 同 样 
分 两 步 来 做 。 首 先 ， 使 用 NetworkX 的 to_scipy_sparse_matrix 图 数 把 图 转换 为 矩阵 形式 : 











xX = nx.to_scipy_sparse matrix(G) .todqense() 


写作 本 书 时 ，scikit-learn 实 现 的 轮廓 系数 函数 不 支持 稀 琉 和 矩阵 。 因 此， 需要 调用 
todense() 函数 。 很 显然 , 这 是 个 锯 主 意 一 通常 应 该 用 稀 琉 矩阵 , 因为 数据 密集 的 情况 很 罕见 。 
这 个 例子 这 么 用 没 问 题 ， 因 为 数据 集 相 对 较 小 ; 而 再 大 点 的 数据 集 就 不 要 这 么 做 了 。 




















建议 你 使 用 V-MEASURE 或 调整 互信 息 (Adjusted Mutual Information ) 评价 
稀 足 数 据 集 。scikit-learn 实 现 了 这 两 种 方法 , 但 是 两 者 所 用 到 的 参数 差别 很 
大 。 























请 注意 ,图 中 边 的 权重 表示 相似 度 而 不 是 距离 。 对 于 距离 而 言 ,， 值 越 大 ， 相 似 度 越 小 。 可 以 
用 可 能 的 最 大 相似 度 ( 1 ) 减 去 现 有 相似 度 ， 把 相似 度 转化 为 距离 : 


天 二 下 


既然 已 经 创建 好 距离 矩阵 和 标签 ， 现 在 就 可 以 计算 轮廓 系数 了 。 指 定 metric 参 数值 为 
precomputed, 否则 X 和 矩阵 将 被 当 作 等 征 年 阵 而 不 是 距离 矩阵 ( scikit-learn 几 乎 到 处 都 默认 
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使 用 的 特征 矩阵 )。 函数 最 后 返回 计算 得 到 的 轮廓 系数 : 


return silhouette_ score(X, labels, metric='precomputed') 








有 两 处 用 到 取 反 操作 。 第 一 处 是 求 距离 时 对 相似 度 取 反 ,这 很 有 必要 ， 因 为 
scikit-learn 计 算 轮 廊 系 数 的 函数 使 用 距离 矩阵 作为 参数 。 第 二 处 是 对 轮 廊 系 
数 取 反 ， 这 样 才 能 用 SciPy 的 optimize 模 块 。 


还 有 个 小 问题 没有 人 解决。 上述 函 数 返回 的 轮廓 系数 越 大 越 好 ， 而 SciPy 的 optimize 模 块 只 定 
义 了 minimize 函 数 ， 它 是 一 个 损失 函数 ， 值 越 小 越 好 。 需 要 对 轮廓 系数 取 反 ， 定 义 一 函数 把 打 
分 函数 转化 为 损失 函数 。 


def inverted silhouette(threshold, friends): 
return -compute_silhouette(threshold, friends) 


上 述 函 数 为 用 原 函数 创建 的 一 个 新 函数 。 新 函数 调用 时 ， 为 原 函 数 传 入 与 之 前 相同 的 参数 ， 
只 不 过 新 函数 在 最 后 返回 值 时 进行 取 反 操作 。 


现在 ,就 可 以 进行 优化 操作 了 。 调 用 minimize 函 数 ， 把 用 于 取 反 操作 的 函数 


inverted_silhouette 传 进来 : 




















result = minimize(invertedqd_ _ silhouette, 0.1, args= (friends,)) 
参数 说 明 如 下 。 


口 jnverted_silhouette: 对 我 们 要 最 小 化 的 函数 compute_silhouette 进 行 取 反 操 作 ， 
将 其 变 为 损失 函数 。 

D 0.1: 我 们 一 开始 猜测 阔 值 为 0.1 时 ， 函 数 取 到 最 小 值 。 

口 options={'maxiter' :10}: 只 进行 10 轮 迭代 (增加 迭代 次 数 ， 效 果 可 能 更 好 ,但 运行 
时 间 也 会 相应 增加 )。 

口 method='nelder-mead': 使 用 下 山 单纯 形 法 ( Nelder-Mead ) 优化 方法 (SciPy 提 供 的 
优化 方法 )。 

D args= (friends,): 向 被 优化 的 函数 传人 frienqs 字 典 参 数 。 








本 上 述 程序 运行 时 间 较 长 。 创 建 图 的 函数 不 是 很 快 ,计算 轮 廊 系数 的 函数 也 不 
快 ,减少 maxiter 的 值 , 减少 迭代 次 数 ， 能 缩短 运行 时 间 ， 但 那样 很 可 能 找到 的 
是 次 优 阅 值 。 


运行 完 上 述 函 数 ， 我 得 到 的 最 优 阀 值 为 0.135， 这 时 有 10 个 连通 分 支 。 最 小 化 函数 返回 的 值 
是 -0.192， 然 而 不 要 忘记 前 面 进行 了 取 反 操作 ， 所 以 实际 的 轮廓 系数 是 0.192。 这 个 值 为 正 数 , 表 
明 各 簇 比 起 重合 更 像 是 分 散 的 (好事 )。 可 以 运行 其 他 模型 ,看 下 轮廓 系数 是 否 更 大 ， 各 艇 是 否 
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更 分 散 。 


可 以 把 这 个 结果 用 到 用 户 推荐 上 一 一 如 果 用 户 属于 一 个 连通 分 支 , 可 以 向 他 推荐 该 连通 分 支 
的 其 他 用 户 。 简 要 回顾 下 针对 用 户 推荐 的 研究 历程 , 先是 用 杰 卡 德 相似 系数 寻找 用 户 间 的 相似 度 ， 
再 用 连通 分 支 把 用 户 分 成 不 同 的 复 ， 然 后 使 用 最 优化 方法 找到 最 好 的 模型 。 


然而 , 大 量 用 户 可 能 与 其 他 用 户 没有 很 好 的 联系 , 因此 需要 用 不 同 的 算法 找到 他 们 所 属 的 簇 。 



























































7.3 小结 


本 章 探 讨 了 社交 网 络 图 以 及 如 何 对 其 进行 聚 类 分 析 。 还 探讨 了 如 何 加 载 和 使 用 在 第 6 章 创 建 
的 分 类 模型 。 


用 来 自 Twitter 的 数据 ,创建 了 好 友 关 系 图 ， 根 据 用 户 的 好 友 ， 检 测 用 户 之 间 的 相似 度 。 我 们 
认为 共同 好 友 更 多 的 用 户 更 相似 ,考虑 到 好 友 数 量 可 能 差别 很 大 ,对 其 进行 了 规范 化 处 理 。 根 据 
用 户 的 相似 度 进行 推测 ， 是 一 种 常用 的 知识 ( 比如 年 龄 或 谈论 的 主题 ) 推断 方法 。 本 章 用 下 面 的 
逻辑 向 用 户 推荐 好 友 一 一 如 果 他 们 关注 用 户 X, 用 户 Y 和 X 相 似 , 那么 他 们 可 能 喜欢 用 户 Y。 这 种 
方法 与 前 几 章 从 交易 数据 中 挖掘 相似 商品 有 异曲同工 之 妙 。 

我 们 的 目标 是 推荐 用 户 , 使 用 聚 类 分 析 方 法 能 够 找到 不 同 的 用 户 复 ,主要 步骤 有 根据 相似 度 
创建 加 权 图 ， 从 图 中 寻找 连通 分 支 。 创 建 图 时 用 到 了 Networkx 库 。 

用 轮廓 系数 评价 聚 类 效果 ， 其 原则 是 复 内 距离 最 小 和 复 间 距离 最 大 。 轮 廓 系数 越 大 ， 聚 类 效 
果 越 好 。 在 寻找 最 合适 的 阔 值 时 ， 用 到 了 SciPy 的 cptimize 模 块 。 

本 章 还 比较 了 几 对 意义 相反 的 概念 。 对 于 两 者 之 间 的 相似 度 这 个 概念 , 值 越 大 ,表明 两 者 之 
间 更 相像 。 相 反 ， 对 于 距离 而 言 ， 值 越 小 ， 两 者 更 相像 。 另 外 一 对 是 损失 函数 和 打分 函数 。 对 于 
损失 函数 ， 值 越 小 ， 效 果 越 好 (也 就 是 损失 越 少 )。 而 对 于 打分 函数 ， 值 越 大 ， 效 果 越 好 。 

下 一 章 将 介绍 怎样 从 男 外 一 种 数据 类 型 一 一 图 像 中 抽取 特征 。 接 下 来 , 将 讨论 如 何 用 神经 网 
络 识别 图 像 中 的 数字 ， 编 写 程序 实现 自动 化 破解 验证 码 。 
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理解 图 像 中 的 信息 一 直 是 数据 挖掘 领域 的 一 个 难题 , 直到 最 近 几 年 才 开 始 得 到 真正 解决 。 
像 检测 和 理解 算法 已 相当 成 熟 , 几 大 厂商 使 用 这 些 算法 研制 的 监测 系统 已 投入 商用 , 用 来 处 理 实 
际 问题 。 这 些 系统 能 够 理解 和 识别 视频 画面 中 的 人 和 物体 。 


从 图 像 中 抽取 信息 很 难 。 图 像 包含 大 量 原 始 数据 , 图 像 的 标准 编码 单元 一 一 像素 一 一 提供 的 
信息 量 很 少 。 图 像 一 一 特别 是 照片 一 一 可 能 存在 一 系列 问题 ， 比 如 模糊 不 清 、 离 目标 太 近 、 光 线 
很 暗 或 太 亮 、 比 例 失真 、 残 缺 、 扭 曲 等 ， 这 会 增加 计算 机 系统 抽取 有 用 信息 的 难度 。 


本 章 介绍 如 何 用 神经 网 络 识别 图 像 中 的 字母 , 从 而 自动 识别 验证 码 。 验 证 码 的 设计 初衷 是 便 
于 人 类 理解 ， 而 不 易 被 计算 机 识破 。 验 证 码 的 英文 名 叫 作 CAPTCHA， 它 取 自 以 下 短语 中 几 个 单 
词 的 首 字母 “Completely Automated Public Turing test to tell Computers and Humans Apart” ， 意 思 
是 能 够 区 别 计算 机 和 人 类 的 全 自动 的 公共 图 灵 测 试 ,很 多 网 站 都 在 注册 、 评 论 系统 中 使 用 验证 码 ， 
以 防止 别人 恶意 注册 虚假 账号 或 发 布 垃圾 评论 。 


本 章 主 要 介绍 如 下 内 容 。 


口 神经 网 络 

口 创建 验证 码 和 字母 数据 集 
口 用 scikit-image 库 处 理 图 像 数 据 
口 神经 网 络 库 PyBrain 

口 从 图 像 中 抽取 基本 特征 
口 使 用 神经 网 络 进行 更 大 规模 的 分 类 任务 
口 用 后 处 理 提升 效果 




















































































































8.1 人 工 神经 网 络 


神经 网 络 算法 最 初 是 根据 人 类 大 脑 的 工作 机 制 设计 的 。 然而, 该 领域 近年 所 取得 的 进展 主要 
得 益 于 数学 而 不 是 生物 学 。 神 经 网 络 由 一 系列 相互 连接 的 神经 元 组 成 。 每 个 神经 元 都 是 一 个 简单 
的 函数 ， 接 收 一 定 输 入 ， 给 出 相应 输出 。 
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输入 函数 输出 
神经 元 可 以 使 用 任何 标准 函数 来 处 理 数据 ， 比 如 线性 函数 ， 这 些 函 数 统称 为 激活 函数 
(activation function )。 一 般 来 说 ， 神 经 网 络 学 习 算 法 要 能 正常 工作 ， 激 活 函 数 应 当 是 可 导 
(derivable ) 和 光滑 的 。 常 用 的 激活 函数 有 逻辑 斯 详 函 数 ， 函 数 表 达 式 如 下 (x 为 神经 元 的 输入 , 大 
7 通常 为 1， 这 时 函数 达到 最 大 值 )。 
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下 图 为 x 取 -6 到 6 之 间 的 函数 图 像 。 
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两 条 红线 的 交点 表示 x 为 0 时 ， 函 数值 为 0.5。 

每 个 神经 元 接收 几 个 输入 ， 根 据 这 几 个 输入 ?， 计算 输 出 。 这 样 的 一 个 个 神经 元 连接 在 一 起 
组 成 了 神经 网 络 ， 对 数据 控 掘 应 用 来 说 ， 它 非常 强大 。 这 些 神经 元 紧密 连接 ， 密 切 配合 ， 能 够 通 
过 学 习 得 到 一 个 模型 ， 使 得 神经 网 络 成 为 机 器 学 习 领 域 最 强大 的 概念 之 一 。 


























GD 对 带 权重 的 输入 加 总 。 一 一 译 者 注 
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神经 网 络 简介 
用 于 数据 挖 气 应 用 的 神经 网 络 ， 神 经 元 按照 层级 进行 排列 。 第 一 层 ， 也 就 是 输入 层 ， 接 收 来 
自 数据 集 的 输入 。 第 一 层 中 的 每 个 神经 元 对 输入 进行 计算 ， 把 得 到 的 结果 传 给 第 二 层 的 神经 元 。 
这 种 叫 作 前 向 神经 网 络 。 本 章 暂 且 把 它 简称 为 神经 网 络 。 此 外 ,还 有 几 种 神经 网 络 ， 适 用 于 不 同 
的 应 用 。 第 11 章 会 讲 到 另外 一 种 类 型 的 神经 网 络 。 
神经 网 络 中 ， 上 一 层 的 输出 作为 下 一 层 的 输入 , 直到 到 达 最 后 一 层 : 输出 层 。 输 出 结果 表示 
的 是 神经 网 络 分 类 器 给 出 的 分 类 结果 。 输入 层 和 输出 层 之 间 的 所 有 层 被 称 为 隐 含 层 ， 因 为 在 这 些 
层 中 ,其 数据 表现 方式 ,常人 难以 理解 。 大 多 数 神经 网 络 至 少 有 三 层 ， 而 如 今 大 多 数 应 用 所 使 用 
的 神经 网 络 层次 比 这 多 得 多 。 
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我 们 优先 考虑 使 用 全 连接 层 ， 即 上 一 层 中 每 个 神经 元 的 输出 都 输入 到 下 一 层 的 所 有 神经 元 。 
实际 构建 神经 网 络 时 ， 就 会 发 现 , 训练 过 程 中 ,很 多 权重 都 会 被 设置 为 0， 有 效 地 减少 边 的 数量 。 


比 起 其 他 连接 模式 ， 全 连接 神经 网 络 更 简单 ， 计 算 起 来 更 快捷 。 

神经 元 激活 函数 通常 使 用 逻辑 斯 诺 函 数 , 每 层 神经 元 之 间 为 全 连接 , 创建 和 训练 神经 网 络 还 
需要 用 到 其 他 几 个 参数 。 创建 过 程 ， 指 定神 经 网 络 的 规模 需要 用 到 两 个 参数 : 神经 网 络 共 有 多 少 
层 ， 隐 含 层 每 层 有 和 多少 个 神经 元 ( 输入 层 和 输出 层 神 经 元 数量 通常 由 数据 集 来 定 )。 
































训练 过 程 还 会 用 到 一 个 参数 : 神经 元 之 间 边 的 权重 。 一 个 神经 元 连接 到 男 外 一 个 神经 元 ,两 
者 之 间 的 边 具 有 一 定 的 权重 ， 在 计算 输出 时 ， 用 边 的 权重 乘 以 信号 的 大 小 〈signal， 第 一 个 神经 
元 的 输出 )。 如 果 边 的 权重 为 0.8， 神 经 元 激活 后 ， 输 出 值 为 1， 那 么 下 一 个 神经 元 从 前 面 这 个 神 
经 元 得 到 的 输入 就 是 0.8。 如 果 第 一 个 神经 元 没有 激活 ， 值 为 0， 那 么 输出 到 第 二 个 神经 元 的 值 就 


十 0。 


























神经 网 络 大 小 合适 ， 且 权重 经 过 充分 训练 , 它 的 分 类 效果 才能 精确 。 大 小 合适 并 不 是 越 大 越 
好 ， 因 为 神经 网 络 过 大 ， 训 练 时 间 会 很 长 ， 更 容易 出 现 过 拟 合 训练 集 的 情况 。 
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| 全 通常 ， 开 始 时 使 用 随机 选取 的 权重 ， 训 练 过 程 中 再 逐步 更 新 。 ] 





设置 好 第 一 个 参数 〈 网 络 的 大 小 )， 再 从 训练 集中 训练 得 到 边 的 权重 参数 后 ， 就 能 构造 分 类 
器 。 然 后 ， 就 可 以 用 它 进 行 分 类 ， 跟 前 几 章 用 到 的 分 类 器 算法 很 像 。 但 是 ,首先 需要 准备 训练 集 
和 测试 集 。 

















8.2 创建 数据 集 


本 章 , 我 们 将 扮演 骇 客 这 个 角色 , 我们 想 编写 破解 网 站 验证 码 的 程序 ， 这样 我 们 就 有 能 力 在 
别人 网 站 上 发 布 恶意 广告 。 需 要 注意 的 是 ， 我 们 要 破解 的 验证 码 ， 难 度 比 不 上 现在 网 上 常用 的 ; 
还 有 就 是 发 表 垃 圾 广告 不 太 道德 。 


我 们 只 使 用 长 度 为 4 个 字母 的 英文 单词 作为 验证 码 ， 如 下 图 所 示 。 


0 Tr 
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0 20 40 50 80 


我 们 的 目标 是 编写 程序 还 原 图 像 中 的 单词 ， 步 骤 如 下 。 


(1) 把 大 图 像 分 成 只 包含 一 个 字母 的 4 张 小 图 像 。 
(2) 为 每 个 字母 分 类 。 

(3) 把 字母 重新 组 合 为 单词 。 

(4) 用 词典 修正 单词 识别 错误 。 


我 们 的 验证 码 破解 算法 做 出 了 以 下 几 个 假设 。 首先, 验证 码 中 的 单词 是 一 个 完整 的 、 有 效 的 
英文 单词 ， 其 长 度 为 4 个 字母 (实际 上 ， 生 成 和 破解 验证 码 ， 我们 都 使 用 同一 个 词典 )。 其 次 , 单 
词 全 部 字母 均 为 大 写 形式 , 不 使 用 符号 、 数 字 或 空格 。 为 了 增加 难度 ， 在 生成 图 像 时 对 单词 使 用 
不 同 的 错 切 ( shear ) 变化 效果 。 



















































































8.2.1 绘制 验证 码 


接 下 来 ,我 们 编写 创建 验证 码 的 函数 ,目标 是 绘制 一 张 含 有 单词 的 图 像 ， 对 单词 使 用 错 切 变 
化 效果 。 绘 制图 像 要 用 到 PIL 库 ， 错 切 变 化 需要 使 用 scikit-image 库 。scikit-image 库 能 够 
接收 PIL 库 导出 的 numpy 数 组 格式 的 图 像 数 据 ， 因 此 这 两 个 工具 可 以 结合 使 用 。 
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PIL 和 scikit-image 库 都 可 以 用 pip 安 装 : 
\% 、 pip install PIL 
pip install scikit-image 


首先 ， 导 入 即将 用 到 的 库 和 模块 。 导 入 numpy， 从 PIL 中 导入 Image 等 绘图 函数 。 


import numpy as np 
from PIL import Image, ImageDraw, ImageFont 
from skimage import transform as tf 


接着 ,创建 用 于 生成 验证 码 的 基础 函数 。 这 个 函数 接收 一 个 单词 和 错 切 值 (通常 在 0 到 0.5 之 
间 )， 返 回 用 numpy 数 组 格式 表示 的 图 像 。 该 函数 还 提供 指定 图 像 大 小 的 参数 ， 因 为 后 面 还 会 用 
它 生 成 只 包含 单个 字母 的 测试 数据 。 代 码 如 下 : 


def create captcha (text, shear=0, size=(100, 24)): 


我 们 使 用 字母 L 来 生成 一 张 黑白 图 像 ， 为 ImageDraw 类 初始 化 一 个 实例 。 这 样 ， 我 们 就 可 以 
用 pI 绘图。 代码 如 下 : 














im = Image.new("L", size, "black") 
draw = ImageDraw.Draw (im) 


指定 验证 码 文字 所 使 用 的 字体 。 这 里 要 用 到 字体 文件 ， 下 面 代 码 中 的 文件 名 ( Coval.otf ) 应 
该 指向 文件 存放 位 置 (我 把 它 放 到 当前 笔记 本 所 在 目录 )。 














font = ImageFont.truetype(r"Coval.otf", 22) 
draw.text ((2, 2), text, fill=1, font=font) 


®t 你 可 以 从 开源 字库 ( Open Font Library ) 下 载 所 需 字 体 文 件 Coval.otf: http://open 
fontlibrary.org/en/font/bretan。 


把 PIL 图 像 转 换 为 numpy 数 组 ， 以 便 用 scikit-image 库 为 图 像 添 加 错 切 变化 效果 。 
scikit-image 大 部 分 计算 都 使 用 numpy 数 组 格式 。 代 码 如 下 : 


image = np.array (im) 


然后 ， 应 用 错 切 变化 效果 ， 返回 图 像 。 





affine tf = tf.AffineTransform(shear=shear) 
image = tf.warp (image, affine tf) 
return image / image.max() 


上 面 最 后 一 行 代码 对 图 像 特征 进行 归 一 化 处 理 , 确保 特征 值 落 在 0 到 1 之 间 。 归 一 化 处 理 可 在 
数据 预 处 理 、 分 类 或 其 他 阶段 进行 。 


现在 ， 我 们 可 以 轻松 生成 图 像 ， 使 用 pyplot 绘 制图 像 。 首 先 设 定 魔术 方法 smatplot1ib， 











8.2 ”创建 数据 集 129 








指定 在 当前 笔记 本 作 图 ， 导 入 pyplot。 代 码 如 下 : 


smatplotlib inline 
from matplotlib import pyplot as plt 


生成 验证 码 图 像 并 显示 它 。 





image = create captcha ("GENE", shear=0.5) 
plt.imshow (image, cmap='Greys') 


生成 的 图 像 就 是 本 节 开 头 你 见 到 的 那 张 ， 效 果 还 不 错 吧 。 


8.2.2 将 图 像 切 分 为 单个 的 字母 


虽然 我 们 的 验证 码 是 单词 , 但 是 我 们 不 打算 构造 能 够 识别 成 千 上 万 个 单词 的 分 类 器 , 而 是 把 
大 问题 转化 为 更 小 的 问题 : 识别 字母 。 

验证 码 识别 算法 的 下 一 步 是 分 割 单词 ,找到 其 中 的 字母 。 具体 做 法 是 , 创建 一 个 函数 ， 寻 于 
图 像 中 连续 的 黑色 像素 ,抽取 它们 作为 新 的 小 图 像 。 这 些小 图 像 (或 者 至 少 应 该 ) 就 是 我 们 要 找 
的 字母 。 


首先 ， 导 入 图 像 分 割 函 数 要 用 到 的 label、regionprops 晴 数 。 
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from skimage.measure import label, regionprops 


图 像 分 割 函 数 接收 图 像 ， 返 回 小 图 像 列表 ， 每 张 小 图 像 为 单词 的 一 个 字母 ， 函 数 声明 如 下 : 








def segment_image (image): 
我 们 要 做 的 第 一 件 事 就 是 检测 每 个 字母 的 位 置 ， 这 就 要 用 到 scikit-image 的 Iabel 函 数 ， 
它 能 找 出 图 像 中 像素 值 相同 且 又 连接 在 一 起 的 像素 块 。 这 有 点 像 第 7 章 中 的 连通 分 支 。 


lapbel 函 数 的 参数 为 图 像 数组 ， 返 回 跟 输入 同型 的 数组 。 在 返回 的 数组 中 ， 图 像 连接 在 一 起 
的 区 域 用 不 同 的 值 来 表示 ， 在 这 些 区 域 以 外 的 像素 用 0 来 表示 。 代 码 如 下 : 
































labeled_ image = label (image > 0) 
抽取 每 一 张 小 图 像 ， 将 它们 保存 到 一 个 列表 中 。 
subimages = [] 


scikit-image 库 还 提供 抽取 连续 区 域 的 函数 : regionprops。 遍 历 这 些 区 域 , 分 别 对 它们 
进行 处 理 。 





for region in regionprops (labeled_ image): 


这 样 ， 通 过 region 对 象 就 能 获取 到 当前 区 域 的 相关 信息 。 我 们 这 里 要 用 到 当前 区 域 的 起 始 
和 结束 位 置 的 坐标 。 
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start_x, start_y, end x, endy = region.bbox 


用 这 两 组 坐标 作为 索引 就 能 抽取 到 小 图 像 ( image 对 象 为 numpy 数 组 ， 可 以 直接 用 索引 值 )， 
然后 ， 把 它 保 存 到 supbimages 列 表 中 。 代 码 如 下 : 








subimages.append (image[start x:end x,start_y:end y]) 











最 后 (循环 外 面 ), 返回 找到 的 小 图 像 ， 每 张 (希望 如 此 ) 小 图 像 包 含 单词 的 一 个 字母 区 域 
没有 找到 小 图 像 的 情况 ， 直 接 把 原 图 像 作为 子 图 返回 。 代 码 如 下 : 




















if len(subimages) = 
return [image,] 
return subimages 


使 用 刚 定义 的 这 个 函数 ， 就 能 从 前 面 生成 的 验证 码 中 找到 小 图 像 。 
subimages = segment_image (image) 


还 可 以 像 下 面 这 样 查看 每 张 小 图 像 。 


三 0; 





f, axes = plt.subplots(1, len(subimages), figsize=(10, 3)) 
for i in range(len(subimages)) 
axes[i].imshow(subimages[i 





], cmap="gray") 


结果 如 下 。 
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图 像 切 割 效果 还 不 错 ， 但 是 你 可 能 注意 到 ， 每 张 小 图 像 都 多 少 带 有 相 邻 字母 的 一 部 分 。 

















8.2.3 创建 训练 集 


使 用 图 像 切割 函数 就 能 创建 字母 数据 集 ， 其 中 字母 使 用 了 不 同 的 错 切 效 果 。 然 后 ， 就 可 以 训 
练 神 经 网 络 分 类 器 来 识别 图 像 中 的 字母 。 





























首先 , 指定 随机 状态 值 , 创建 字母 列表 , 指定 错 切 值 。 这 里 几乎 没有 新 内 容 , numpy 的 arange 
函数 你 可 能 没 用 过 , 它 跟 Python 的 range 函 数 类 似 只 不 过 arange 子 数 可 以 和 numpy 的 数组 一 
起 用 ， 步 长 可 以 使 用 浮 点 数 。 代 码 如 下 : 











from sklearn.utils import check_random state 
random_state = check_random state(14) 
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letters = list ("ABCDEFGHIJKLMNOPORSTUVWXYZ") 
shear_values = np.arange(0, 0.5, 0.05) 


再 来 创建 一 个 函数 ( 用 来 生成 一 条 训练 数据 )， 从 我 们 提供 的 选项 中 随机 选取 字母 和 错 切 值 。 
代码 如 下 : 
def generate_ sample (random state=None): 
random_state = check_random state(random state) 


letter = random state.choice(letters) 
shear = random_ state.choice(shear_values) 


返回 字母 图 像 及 表示 图 像 中 字母 属于 哪个 类 别 的 数值 。 字母 A 为 类 别 0，B 为 类 别 1，C 为 类 别 
2， 以 此 类 推 。 代 码 如 下 : 





return create captchal(letter, shear=shear, size=(20, 20)), 
Jetters.index(letter) 


在 上 述 函 数 体 的 外 面 ， 调 用 该 函数 ， 生 成 一 条 训练 数据 ， 用 pyplot 显 示 图 像 。 





image, target = generate_ sample (random state) 
plt.imshow (image, cmap="Greys") 
print ("The target for this image is: {0}".format (target)) 


调用 几 千 次 该 函数 ， 就 能 生成 足够 的 训练 数据 。 把 这 些 数 据 传人 到 numpy 的 数组 里 ， 因 为 数 
组 操作 起 来 比 列表 更 容易 。 代 码 如 下 : 


dataset, targets = zip(*(generate sample(random state) for i in 














range (3000))) 
dataset = np.array (dataset, dtype='float') 
targets = np.array (targets) 





我 们 共有 26 个 类 别 ， 每 个 类 别 (字母 ) 用 从 0 到 25 之 间 的 一 个 整数 表示 。 神 经 网 络 一 般 不 文 
持 一 个 神经 元 输出 多 个 值 , 但 是 多 个 神经 元 就 能 有 多 个 输出 ， 每 个 输出 值 在 0 到 1 之 间 。 因 此 , 我 
们 对 类 别 使 用 一 位 有 效 码 编码 方法 ， 这样 ， 每 条 数据 就 能 得 到 26 个 输出 。 如 果 结 果 像 某 字母 ,使 
用 近似 于 1 的 值 ， 如 果 不 像 ， 就 用 近似 于 0 的 值 。 代 码 如 下 : 





from sklearn.preprocessing import OneHotEncoder 
onehot = OneHotEncoder() 
y = onehot.fit transform(targets.reshape (targets.shape[0],1)) 


我 们 用 的 库 不 支持 稀疏 矩阵， 因此 ， 需 要 将 稀 琉 矩阵 转换 为 密集 矩阵 。 代 码 如 下 : 





y = y.todqense() 


8.2.4 根据 抽取 方法 调整 训练 数据 集 


得 到 的 数据 集 跟 即将 使 用 的 方法 有 较 大 出 入。 数据 集 每 条 数据 都 是 一 个 恰好 为 20 像 素 见 方 的 
字母 。 我 们 所 使 用 的 方法 是 从 单词 中 抽取 字母 ， 而 这 可 能 会 挤 压 图 像 ， 使 图 像 偏 离 中 心 或 者 引入 
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其 他 问题 。 

理想 情况 下 , 训练 分 类 器 所 使 用 的 数据 应 该 与 分 类 器 即将 处 理 的 数据 尽 可 能 相似 。 但 实际 中 ， 
经 常 有 所 不 同 ， 但 是 应 尽量 缩小 两 者 之 间 的 差别 。 

对 于 验证 码 识别 实验 ， 最 理想 的 情况 是 ， 从 实际 的 验证 码 中 抽取 字母 ， 并 对 它们 进行 标注 。 
为 了 节省 时 间 ， 我 们 只 在 训练 集 上 运行 分 制 函数 ， 返 回 分 割 后 得 到 的 字母 图 像 。 

我 们 需要 用 到 scikit-image 库 中 的 resize 孙 数 ， 因 为 我 们 得 到 的 小 图 像 并 不 总 是 20 像 素 
见方 。 代 码 如 下 : 

from skimage.transform import resize 

现在 ， 就 可 以 对 每 条 数据 运行 Segment_image 函 数 ， 将 得 到 的 小 图 像 调 整 为 20 像 素 见方 。 
代码 如 下 : 


dataset = np.array ([resize(segment_image(sample) [0], (20, 20)) for 
sample in dataset]) 






































最 后 , 创建 我 们 的 数据 集 。dataset 数 组 为 三 维 的 ， 因 为 它 里 面 存储 的 是 二 维 图 像 信息 。 由 
于 分 类 絮 接 收 的 是 二 维 数组 ， 因 此 ， 需 要 将 最 后 两 维 扁平 化 。 




















X = dataset.reshape((dataset.shapel[l0], dataset.shape[l1] * dataset. 
Shape[2])) 














使 用 scikit-learn 中 的 train_test_split 也 数 , 把 数据 集 切 分 为 训练 集 和 测试 集 。 代 码 
如 下 : 
from sklearn.cross_validation import train test_ split 


xX train, XxX test, y_train, y_test = \ 
train test_split (xXx, y, train size=0.9) 








8.3 训练 和 分 类 
接 下 来 ， 我 们 就 来 构造 神经 网 络 分 类 器 ， 接 收 图 像 ， 预 测 图 像 中 的 单个 ) 字母 是 什么 。 


我 们 将 使 用 之 前 创建 的 单个 字母 训练 集 。 数据 集 本 身 很 简单 。 每 张 图 像 为 20 像 素 大 小 ,每 个 
像素 用 1 ( 黑 ) 或 0 ( 白 ) 来 表示 。 每 张 图像 有 400 个 特征 ， 将 把 它们 作为 神经 网 络 的 输入 。 输 出 
结果 为 26 个 0 到 1 之 间 的 值 。 值 越 大 ,表示 图 像 中 的 字母 为 该 值 所 对 应 的 字母 (输出 的 第 一 个 值 对 
应 字母 A， 第 二 个 对 应 字母 B， 以 此 类 推 ) 的 可 能 性 越 大 。 


我 们 用 PyBrain 库 来 构建 神经 网 络 分 类 器 。 
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愉 跟 我 们 之 前 见 到 的 所 有 库 一 样 , PyBrain 也 可 以 用 pip 来 安装 :pip install 
Q pybraino 








PyBrain 库 使 用 自己 的 数据 集 格 式 ， 好 在 创建 这 种 格式 的 训练 集 和 测试 集 并 不 太 难 。 代 码 
如 下 : 


from pybrain.datasets import SupervisedDataSet 


首先 ， 遍历 我 们 的 训练 集 ， 把 每 条 数据 添加 到 一 个 新 的 SupervisedDataSet 实 例 中 。 代码 
如 下 : 
training = SupervisedDataSet (X.shape[1], y.shape[1]) 


for i in range(x train.shape[0]): 
training.addSample(X train[i], y_train[i]) 


然后 ， 遍历 测试 Ee， 同样 把 每 条 数据 添加 到 一 个 新 的 SupervisedpataSet 实 例 中 。 代码 
如 下 : 
testing = SupervisedDataSet (xX.shapel[1], y.shape[1]) 


for i in range(x_ test.shape[0]): 
testing.addSample (xXx_test[i], y_test[i]) 

















现在 就 可 以 创建 神经 网 络 了 。 我 们 将 创建 一 个 最 基础 的 、 具 有 三 层 结构 的 神经 网 络 , 它 由 输 
入 层 、 输 出 层 和 一 层 隐 含 层 组 成 。 输入 层 和 输出 层 的 神经 元 数量 是 固定 的 。 数 据 集 有 400 个 特征 ， 
那么 第 一 层 就 需要 有 400 个 神经 元 ， 而 26 个 可 能 的 类 别 表明 我 们 需要 26 个 用 于 输出 的 神经 元 。 


确定 隐 含 层 的 神经 元 数量 可 能 相当 困难 。 如 果 神 经 元 数量 过 多 , 神经 网 络 呈 现 出 稀 玻 的 特点 ， 
这 时 要 训练 足够 多 的 神经 元 恰当 地 表示 数据 就 有 困难 , 这 往往 会 导致 过 拟 合 训练 数据 的 问题 。 相 
反 ， 如 果 神 经 元 过 少 ， 每 个 对 分 类 结果 的 贡献 过 大 ， 再 加 上 训练 不 充分 ， 就 很 可 能 产生 低 拟 合 现 
象 。 我 发 现 一 开始 用 漏斗 形状 不 错 ， 即 隐 含 层 神经 元 数量 介 于 输入 和 输出 层 之 间 。 本 章 ， 隐 含 层 
用 100 个 神经 元 ， 你 可 以 尝试 其 他 值 ， 看 看 能 不 能 取得 更 好 的 效果 。 


导入 builgNetwork 函 数 ， 指 定 维度 ， 创 建 神经 网 络 。 第 一 个 参数 X.shape[1] 为 输入 层 神 
经 元 的 数量 ， 也 就 是 特征 数 ( 数据 集 X 的 列 数 )。 第 二 个 参数 指 隐 含 层 的 神经 元 数量 ,这 里 设置 
为 100。 第 三 个 参数 为 输出 层 神经 元 数量 ,由 类 别 数 组 y 的 形状 来 确定 。 最 后 ， 除 去 输出 层 外 , 我 
们 每 层 使 用 一 个 一 直 处 于 激活 状态 的 偏 置 神经 元 ( bias neuron, 它 与 下 一 层 神经 元 之 间 有 边 连接 ， 
边 的 权重 经 过 训练 得 到 )。 代 码 如 下 : 


from pybrain.tools.shortcuts import buildNetwork 
net = buildNetwork (xX.shapel[1], 100, y.shape[l1], bias=True) 


现在 ， 我们 就 可 以 训练 神经 网 络 ， 和 寻找 合 适 的 权重 值 。 但 是 如 何 训练 神经 网 络 呢 ? 





























































































































134 第 8 章 用 神经 网 络 破解 验证 码 





8.3.1 反 向 传播 算法 


反 向 传播 算法 (back propagation ，backprop ) 的 工作 机 制 为 对 预测 错误 的 神经 元 施 以 惩罚 。 
从 输出 层 开始 ,向 上 层 层 查 找 预测 错误 的 神经 元 , 微调 这 些 神经 元 输入 值 的 权重 ,以 达到 修复 输 
出 错误 的 目的 。 


申 经 元 之 所 以 给 出 错误 的 预测 , 原因 在 于 它 前 面 为 其 提供 输入 的 神经 元 , 更 确切 来 说 是 由 这 
两 个 神经 元 之 间 边 的 权重 及 输入 值 决 定 的 。 我 们 可 以 尝试 对 权重 进行 微调 。 每 次 调整 的 幅度 取决 
于 以 下 两 个 方面 : 神经 元 各 边 权 重 的 误差 函数 的 偏 导数 和 一 个 叫 作 学 习 速 率 的 参数 (通常 使 用 很 
小 的 值 )。 计算 出 函数 误差 的 梯度 ,再 乘 以 学 习 速 率 ，, 用 总 权重 减 去 得 到 的 值 。 下 面 将 给 出 例子 。 
梯度 的 符号 由 误差 决定 ， 每 次 对 权重 的 修正 都 是 朝 着 给 出 正确 的 预测 值 努力 。 有 时候, 修正 结果 
为 局 部 最 优 (local optima )， 比 起 其 他 权重 组 合 要 好 ， 但 所 得 到 的 各 权重 还 不 是 最 优 组合 。 


反 疝 传播 算法 从 输出 层 开始 ， 层 层 向 上 回溯 到 输入 层 。 到 达 输 入 层 后 ， 所 有 边 的 权重 更 新 


2 
完毕 。 


PyBrain 提 供 了 backprop 算 法 的 一 种 实现 ， 在 神经 网 络 上 调用 trainer 类 即 可 。 代 码 如 下 : 
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from pybrain.supervised.trainers import BackpropTrainer 
trainer = BackpropTrainer (net, training, learningrate=0.01, 
weightdecay=0.01) 


backprop 算 法 在 训练 集 上 进行 迭代 ， 每 次 都 对 权重 进行 微调 。 当 误差 减 小 的 幅度 很 小 时 ， 表 
明 算 法 无 法 进一步 缩小 误差 ,继续 训练 已 无 意义 , 这 时 就 可 以 停止 算法 运行 。 理 论 上 ， 等 误差 不 
再 缩小 时 ， 再 停止 运行 。 这 个 过 程 叫 作 算法 收敛 。 但 实际 上 我 们 不 会 等 到 误差 停止 缩小 ,因为 这 
通常 要 花 很 长 时 间 且 效果 有 限 。 

此 外 ,更 简单 的 做 法 是 ,运行 代码 固定 的 步 数 ( epoch )。 每 一 步 所 包含 的 次 数 越 多 ， 所 用 时 


间 也 就 越 多 ,效果 越 好 ( 每 一 步 的 提升 效果 呈 下 降 趋势 )。 我 们 这 里 训练 时 ,使 用 了 20 步 ， 数 量 
再 多 些 ， 效 果 可 能 会 有 所 改善 (也 许 幅度 很 小 )。 代 码 如 下 : 























trainer.trainEpochs (epochs=20) 


运行 前 面 的 代码 ,这 可 能 要 花 几 分 钟 时 间 , 长 短 取决 于 硬件 ,然后 我 们 就 能 在 测试 集 上 进行 
预测 。PyBtrain 提 供 了 相应 函数 ， 只 要 在 trainer 实 例 上 调用 即 可 。 





predictions = trainer.testOnClassData(dataset=testing) 
得 到 预测 值 后 ， 可 以 用 scikit-learn 计 算 F1 值 。 


from sklearn.metrics import f1_score 
print ("F-score: {0:.2f}".format (fl1_score(predictions, 
y_test.argmax(axis=1) ))) 


F1 值 为 0.97， 对 于 相对 较 小 的 模型 来 说 ， 这 个 结果 很 了 不 起 。 别 忘 了 我 们 的 特征 值 只 是 简单 
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的 像素 值 ， 神 经 网 络 竟然 知道 怎么 使 用 它们 。 


既然 构建 好 了 具有 高 精度 的 字母 分 类 器 , 接 下 来 看 下 怎么 用 它 来 识别 单词 , 实现 验证 码 破解 
功能 。 








8.3.2 ”预测 单词 
我 们 想 分 别 识别 每 张 小 图 像 中 的 字母 ， 然 后 把 它们 拼 成 单词 ， 完 成 验证 码 识 别 。 
我 们 来 定义 一 个 函数 ， 接 收 验 证 码 ， 用 神经 网 络 进 行 训练 ， 返 回 单词 预测 结果 。 





def ptredict_captchal(captcha_image，Dneural_networK) : 


使 用 前 面 定义 的 图 像 切 割 函数 segment_image 抽 取 小 图 像 。 











subimages = Segment_image(captcha_image) 
最 终 的 预测 结果 一 一 单词 ,将 由 小 图 像 中 的 字母 组 成 。 这 些小 图 像 根据 位 置 进行 排序 ,从 而 
保证 拼接 后 得 到 的 单词 中 各 字母 处 在 正确 的 位 置 上 。 


predicted word = "" 
遍历 四 张 小 图 像 。 


for subimage in subimages: 


每 张 小 图 像 不 太 可 能 正好 是 20 像 素 见方 。 调 整 大 小 后 ， 才 能 用 神经 网 络 处 理 。 























subimage = resize(subimage, (20, 20)) 


把 小 图 像 数据 传人 神经 网 络 的 输入 层 ， 激 活 神 经 网 络 。 这 些 数据 将 在 神经 网 络 中 进行 传播 ， 


C7 


返回 输出 结果 。 神 经 网 络 在 前 面 已 经 创建 好 了 ， 现 在 只 需 激活 它 。 代 码 如 下 : 

















outputs = net.activate(subimage.flatten()) 
神经 网 络 输出 26 个 值 , 每 个 值 都 有 索引 号 ,分 别 对 应 letters 列 表 中 有 着 相同 索引 的 字母 ， 
每 个 值 的 大 小 表示 与 对 应 字母 的 相似 度 。 为 了 获得 实际 的 预测 值 ， 我 们 取 到 最 大 值 的 索引 ， 再 
通过 letters 列 表 找到 对 应 的 字母 。 例 如 ， 如 果 第 五 个 值 最 大 , 那么 预测 结果 就 为 字母 E。 代 码 
如 下 : 




















prediction = np.argmax (outputs) 
把 上 面 得 到 的 字母 添加 到 正在 预测 的 单词 中 。 
predicted word += letters[lprediction] 


循环 结束 后 ， 我 们 就 已 经 找到 了 单词 的 各 个 字母 ， 将 其 拼接 成 单词 ， 最 后 返回 这 个 单词 。 
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return predicted word 
可 以 使 用 下 面 代码 来 做 下 测试 。 尝试 不 同 的 单词 , 看 看 可 能 会 遇 到 什么 错误 , 别 忘 了 我 们 的 
神经 网 络 只 能 处 理 大 写字 母 。 
word = "GENE" 


captcha = create captcha (word, shear=0.2) 
print (predict_captcha (captcha, net)) 


我 们 可 以 把 上 面 代码 整合 到 一 个 函数 里 , 便于 进行 多 次 尝试 。 这 里 沿用 之 前 每 个 单词 只 包含 
四 个 字母 的 假设 ， 降 低 预 测 任 务 的 难度 。 删 除 bprediction = prediction[:4]， 试 试看 可 能 
会 出 什么 错误 。 代 码 如 下 : 
def test_prediction(word, net, shear=0.2): 
captcha = create_ captcha (word, shear=shear) 
prediction = predict_ captchal(captcha, net) 


prediction = prediction[:4] 
return word == prediction, word, prediction 


上 述 函数 返回 结果 依次 为 预测 结果 是 否 正确 、 验 证 码 中 的 单词 和 预测 结果 的 前 四 个 字符 。 

















上 面 代码 能 正确 识别 单词 GENE, 但 是 其 他 单词 会 出 错 。 正 确 率 如 何 ?” 我们 借助 NLTK 模 块 创 
建 单词 数据 集 ， 只 使 用 长 度 为 4 的 单词 。 从 NLTK 中 导入 words， 代 码 如 下 : 

















from nltk.corpus import words 


words 实 际 上 为 corpus (语料库 ) 对 象 , 调用 它 的 words () 方 法 才能 取 到 里 面 的 单词 。 下面 
代码 还 加 了 长 度 为 4 的 过 滤 条 件 。 代 码 如 下 : 


valiqd words = [word.upper() for word in words.words() if lenl(word) == 
4] 


识别 得 到 的 所 有 长 度 为 4 的 单词 ， 分 别 统计 识别 正确 和 错误 的 数量 。 





num_ correct = 0 
num incorrect = 0 
for word in valid words: 
correct, word, prediction = test_ prediction(word, net, 
shear=0 .2) 
if correct: 
num_ correct += 1 
else: 
num_ incorrect += 1 
print ("Number correct is {0}".format (num correct)) 
print ("Number incorrect is {0}".format (num incorrect)) 


正确 识别 2832 个 单词 ， 错 误 识 别 2681 个 ， 正 确 率 仅 为 51%。 而 字母 识别 率 为 97%， 两 者 差距 
太 大 。 到 底 怎 么 回 事 ? 


首先 , 来 看 下 正确 率 本 身 。 其 余 条 件 相 同 的 情况 下 , 我们 有 四 个 字母 ,每 个 字母 的 正确 率 为 
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97%， 四 个 字母 都 正确 的 话 ， 正 确 率 约 为 88% ( 约 为 0.97* )。 一 个 字母 出 错 将 导致 整个 单词 识别 
错误 。 

其 次 ， 错 切 值 对 正确 率 有 影响 。 这 次 创建 数据 集 时 ， 随 机 从 0 到 0.5 之 间 选 取 一 个 数 作为 错 切 
值 。 先 前 测试 时 错 切 值 为 0.2。 错 切 值 为 0 时 ， 正 确 率 为 73%; 错 切 值 取 0.5 时 ， 正 确 率 只 有 2.5%。 
错 切 值 越 大 ， 正 确 率 越 低 。 


另外 一 个 原因 在 于 我 们 之 前 随机 选取 字母 组 成 单词 ,而 字母 在 单词 中 的 分 布 不 是 随机 的 。 例 
如 ， 字 母 E 显 然 就 比 Q 等 其 他 字母 使 用 频率 更 高 。 使 用 频 度 较 高 ， 但 却 常常 被 识别 错误 的 字母 ， 
也 会 导致 错误 率 上 升 。 


我 们 可 以 把 经 常识 别 错误 的 字母 统计 出 来 , 用 二 维 混淆 矩阵 来 表示 。 每 行 和 每 列 均 为 一 个 类 
别 (字母 )。 

和 矩阵 的 每 一 项 表示 一 个 类 别 ( 行 对 应 的 类 ) 被 错误 识别 为 男 一 个 类 别 ( 列 对 应 的 类 ) 的 次 数 。 
例如 ，(4,2) 这 一 项 的 值 为 6， 表 示 字 母 D 有 6 次 被 错误 地 识别 为 字母 B。 





























from sklearn.metrics import confusion matrix 
cm = confusion matrix(np.argmax(y_test, axis=1), predictions) 


理想 情况 下 ,混淆 矩阵 应 该 只 有 处 于 对 角 线 的 项 (ii) 值 不 为 零 ， 其 余 各 项 的 值 均 为 零 ， 否 
则 就 是 分 类 有 误 。 
用 pyplot 做 成 图 ， 哪 些 字母 容易 混 消 就 一 目 了 然 ， 代 码 如 下 : 


plt.figure(figsize=(10, 10)) 
plt.imshow (cm) 


下 面 代码 中 的 tick_marks 表 示 刻 度 ， 在 坐标 轴 上 标 出 每 个 字母 ， 便 于 理解 。 

















tick_ marks = np.arange (len(letters)) 
plt.xticks (tick marks, letters) 

plt .yticks (tick marks, letters) 

plt .ylabel ('Actual') 

plt .xlabel ('Predicted') 

plt.show() 


结果 如 下 图 所 示 。 从 图 中 ,我 们 就 能 清楚 地 看 到 主要 的 错误 在 于 几乎 无 一 例外 地 把 U 识 别 为 




















HI 


我 们 的 词 表 中 17% 的 单词 含有 字母 U, 这 些 单词 几乎 都 会 被 识别 错误 。U 的 出 现 频 率 要 高 于 H 
(11% 的 单词 ) ， 我 们 不 禁 想 到 了 一 个 提升 正确 率 的 简单 方法 ( 可 能 不 够 健壮 ) : 把 所 有 预测 结 
果 为 H 的 ， 都 改 为 U。 


下 节 将 采用 更 为 巧妙 的 方法 ， 从 词典 中 搜索 跟 预 测 结果 相似 的 单词 。 
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实际 
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WE EG A A 


预测 











th Ys 
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我 们 刚刚 是 直接 返回 预测 结果 , 其 实 返回 之 前 可 以 先 检查 一 下 词典 里 是 否 包 含 该 词 条 。 如 果 






































单词 在 词典 里 ,那么 就 返回 预测 结果 ， 如 果 不 在 ,我 们 找到 和 预测 结果 























似 的 单词 ， 再 把 它 作为 


ZU 





更 新 过 的 预测 结果 返回 。 注 意 ， 该 方法 是 基于 所 有 验证 码 中 的 单词 都 是 英语 单词 的 假设 ， 因 此 ， 

对 于 随机 选取 字母 组 成 的 验证 码 来 说 不 适用 。 其 实 这 正 是 很 多 验证 码 不 使 用 单词 的 原因 之 一 。 
还 有 一 个 问题 要 解决 一 一 如 何 找到 最 相近 的 单词 ? 方法 有 很 多 。 例 如， 比较 词 长 。 词 长 差 不 

多 的 两 个 单词 更 相似 。 然 而 , 通常 认为 ， 在 相同 位 置 有 相同 字母 的 两 个 单词 更 相似 ,这 就 要 用 到 





























编辑 距离 。 


8.4.1 寻找 最 相似 的 单词 























列 文 斯 坦 编辑 距离 ( Levenshtein edit distance ) 是 一 种 通过 比较 两 个 短 字符 串 ， 确 定 它们 相似 


度 的 方法 。 它 不 太 适 合 扩展 , 字符 串 很 长 时 通常 不 用 这 种 方法 。 编 辑 虽 
为 另 一 个 单词 所 需要 的 步 又 数 。 以 下 操作 都 算 一 步 。 


(1) 在 单词 的 任意 位 置 插入 一 个 新 字母 。 








E 离 需要 计算 从 一 个 单词 变 
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C) 从 单词 中 删除 任意 一 个 字母 。 
G) 把 一 个 字母 替换 为 另外 一 个 字母 


把 一 个 单词 转变 为 男 外 一 个 单词 所 需 步 数 越 少 ， 这 两 个 单词 越 相似 ， 反之， 差别 越 大 。 


NLTK 实 现 了 编辑 距离 算法 ， 可 以 直接 拿 来 用 。 导 入 后 ， 指 定 两 个 单词 ， 看 下 它们 的 编辑 
距离 。 





























from nltk.metrics import edit_distance 
steps = edit_ distance ("STEP", "STOP") 
print ("The number of steps needed is: {0}".format (steps)) 


尝试 不 同 的 单词 ,你 会 发 现 编辑 距离 返回 的 结果 跟 我 们 的 直觉 很 相近 ,编辑 距离 在 检查 拼写 、 
听写 错误 和 名 称 匹配 ( 比如 Marc 和 Mark 的 拼写 形式 就 极 易 被 搞 混 ) 方面 用 处 很 大 。 

然而 , 我 们 这 里 没 这 么 复杂 ， 只 需要 比较 两 个 单词 同等 位 置 上 的 字母 是 否 一 致 即 可 ,不 涉及 
字母 的 移动 。 因 此 , 我 们 自己 来 编写 距离 度量 函数 ， 也 就 是 统计 同等 位 置 上 字母 不 同 的 数量 。 代 
人 码 如 下 : 















































def compute distance(prediction, word): 
return len(prediction) - sum(prediction[i] == word[i] for i in 
range (len (prediction))) 


用 词 长 (4 ) 减 去 同等 位 置 上 相同 的 字母 的 数量 ， 得 到 的 值 越 小 表示 两 个 词 相似 度 越 高 。 





8.4.2 ”组装 起 来 


我 们 现在 就 来 测试 改进 的 预测 函数 ,代码 跟 之 前 相似 。 首 先 ,定义 预测 函数 ， 这 次 把 单词 列 
表 也 传 进去 。 


from operator import itemgetter 

def improved prediction(word, net, dictionary, shear=0.2): 
captcha = create_ captcha (word, shear=shear) 
prediction = predict_ captcha (captcha, net) 
prediction = prediction[:4] 


到 目前 为 止 , 代码 跟 之 前 的 预测 函数 一 致 ， 还 是 取 到 预测 结果 的 前 四 个 字母 。 然 而 ,这 次 还 
要 检测 单词 是 否 在 词典 里 。 如 果 在 ,把 单词 作为 预测 结果 返回 ; 如 果 不 在 ,找到 最 相似 的 单词 返 
回 。 代 码 如 下 : 


if prediction not in dictionary: 


计算 预测 结果 和 词典 中 每 个 单词 的 距离 ， 按 照 距离 由 小 到 大 进行 排序 。 代 码 如 下 : 


























distances = sorted([(word, compute distance(prediction, word)) 
for word in dictionary], 
key=itemgetter (1) ) 
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随后 把 这 个 单词 作为 预测 结果 i 


7 
[Bul 
国 


找到 最 为 匹配 的 单词 一 一 也 就 是 距离 最 小 的 单词 


best_word = qistances [0] 
prediction = best_word[0 


函数 返回 结果 跟 之 前 相同 : 预测 结果 是 否 正确 ， 验 证 码 中 的 单词 和 预测 结果 。 























return word == prediction, word, prediction 
测试 代码 中 需要 变动 的 地 方 用 粗 体 表示 。 


num_correct = 0 
num_ incorrect = 0 
for word in valid words: 
correct, word, prediction = improved prediction(word, net, valiqd 
words, shear=0.2) 
if” Correcot, 
num_ correct += 1 
else: 
num_ incorrect += 1 
print ("Number correct is {0}".format (num correct)) 
print ("Number incorrect is {0}".format (num incorrect)) 


上 述 代 码 运 行 时 间 稍 长 ( 计算 预测 结果 跟 词 典 中 每 个 单词 之 间 的 距离 要 耗费 一 定时 间 ) , 最 
终 正确 识别 3037 个 单词 ， 错 误 识 别 2476 个 ， 正 确 率 较 之 前 有 4 个 百分点 的 提升 ， 达 到 55%。 由 于 
预测 结果 跟 词典 中 很 多 单词 的 相似 度 一 致 , 算法 随机 从 一 组 最 相似 的 单词 中 选择 最 佳 的 , 所 以 算 
法 效果 提升 很 有 限 。 例 如 ， 词 典 中 第 一 个 单词 AANI ( 埃及 神话 中 狗头 猿 猴 ) ， 跟 其 他 44 个 单词 
距离 相同 。 选 中 的 几率 就 只 有 1/44。 


如 果 我 们 作 次 ,预测 结果 只 要 从 最 相似 的 一 组 词 中 随机 挑 一 个 就 算是 正确 的 话 , 那么 预测 结 
果 正 确 率 将 高 达 78%( 代码 请 见 本 书 配 套 的 代码 包 ) 。 

要 进一步 提升 正确 率 , 得 改变 距离 测量 方法 , 看 能 不 能 利用 之 前 得 到 的 混淆 和 矩阵， 找到 经 常 
被 混淆 的 字母 或 其 他 有 用 信息 。 逐 步 改 进 效 果 ， 是 很 多 数据 挖掘 算法 的 一 个 特点 , 这 跟 科 学 实验 
方法 是 一 脉 相 承 的 一 一 产生 想法 ， 做 实验 ,分 析 结 果 ， 青 根据 结果 做 进一步 的 改进 。 





























8.5 ”小结 


本 章 的 任务 是 根据 验证 码 图 像 的 像素 值 识别 里 面 的 单词 。 当 然 , 为 了 简化 难度 ,验证 码 使 用 
由 四 个 字母 组 成 的 英语 单词 。 网 站 上 实际 使 用 的 验证 码 要 比 这 复杂 得 多 一 一 也 应 该 这 样 ! 但 是 ， 
只 要 对 上 面 所 讲 的 算法 进行 改进 , 就 能 通过 神经 网 络 , 使 用 跟 这 里 类 似 的 方法 破解 更 为 复杂 的 验 
证 码 。scikit-image 库 提供 大 量 图 像 处 理工 具 ， 比 如 从 图 像 中 抽取 不 同形 状 的 小 图 像 和 改善 图 
像 对 比 度 的 方法 等 。 这 些 方法 有 助 于 破解 验证 码 。 


我 们 把 识别 单词 的 难题 转化 为 识别 字母 的 小 问题 , 创建 前 向 神经 网 络 识 别 图 像 中 的 字母 , 取 
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得 了 97% 的 准确 率 。 


神经 网 络 由 一 组 组 神经 元 连接 而 成 , 神经 元 为 基本 的 计算 单元 , 每 个 神经 元 都 只 包含 一 个 函 
数 。 然 而 ,所 有 的 神经 单元 连接 在 一 起 就 能 解决 复杂 程度 很 高 的 问题 。 神 经 网 络 是 深度 学 习 的 基 
础 ， 后 者 可 是 当今 数据 挖掘 领域 最 受 关注 的 方向 之 一 。 

尽管 识别 字母 正确 率 很 高 ， 但 是 单词 识别 正确 率 陡然 降 至 50% 多 点 。 原 因 有 很 多 ， 其 实 这 恰 
好 说 明 把 算法 从 实验 环境 搬 到 真实 环境 会 遇 到 各 种 各 样 的 困难 。 


使 用 词典 ， 寻 找 最 匹配 的 单词 ， 能够 提升 正确 率 。 我 们 考虑 使 用 常用 的 编辑 距离 表示 单词 间 
的 相似 度 ; 但 是 我 们 只 关注 字母 错误 而 不 次 究 与 哪些 编辑 步 又 ( 插入、 删除 ) 相关 ， 因 此 简化 了 
距离 计算 方法 。 最 终 正 确 率 有 所 提升 ， 但 是 还 有 很 多 要 改进 的 地 方 。 


下 一 章 将 继续 研究 字符 串 比 较 , 尝试 找 出 文档 的 主人 ( 从 多 名 可 能 的 作者 中 ) 
档 内 容 而 不 使 用 其 他 信息 ! 


















































只 根据 文 











作者 归属 问题 




















文本 挖掘 任务 作者 分 析 (authorship analysis ) 的 目标 是 只 根据 作品 内 容 找 出 作者 独 有 的 特点 ， 
比如 年 龄 、 性 别 或 背景 。 作 者 归属 (authorship attribution ) 是 作者 分 析 的 一 个 细 分 领域 ， 研 究 目 
标 是 从 一 组 可 能 的 作者 中 找到 文档 真正 的 主人 。 这 是 一 种 典型 的 分 类 任务 。 作 者 分 析 任 务 一 般 采 
用 标准 的 数据 挖掘 方法 ， 比 如 交叉 检验 、 特 征 抽取 和 分 类 算法 等 。 

本 章 将 把 前 几 章 学 到 的 数据 挖掘 方法 整合 起 来 ,解决 作者 归属 问题 , 从 而 掌握 数据 挖掘 整个 
过 程 。 我 们 界定 问题 ， 讨 论 相 关 背 景 和 知识 ， 抽 取 特 征 ， 创 建 流 水 线 实 现 分 类 。 我 们 将 比较 两 类 
特征 的 效果 : 功能 词 和 N 元 语法 。 最 后 ， 深 入 分 析 结果 。 数 据 集会 用 到 两 种 ， 一 开始 使 用 图 书 ， 
然后 增加 难度 ， 使 用 噪音 较 多 的 真实 电子 邮件 语 料 。 

本 章 主要 介绍 如 下 内 容 。 


口 特征 工程 和 如 何 根据 应 用 选择 特征 
口 带 着 新 问题 ， 重 新 回顾 词 袋 模型 
口 特征 类 型 和 字符 N 元 语法 模型 

口 支持 向 量 机 

口 数据 集 清洗 


9.1 为 作品 找 作 者 


作者 分 析 可 以 从 文体 学 〈stylometry ) 中 找到 它 的 一 席 之 地 ， 文 体 学 分 析 研 究 的 是 作者 的 写 
作风 格 , 所 依据 的 理念 是 每 个 人 在 语言 掌握 上 有 微小 差异 ,这 会 反映 到 写作 中 , 通过 分 析 作品 之 
间 的 细微 差别 ， 就 可 以 把 作者 区 分 开 来 。 

过 去 一 直 靠 人 工 统计 、 分 析 来 解决 作者 分 析 问 题 ， 而 这 些 工作 恰好 是 计算 机 所 擅长 的 , 这 表 
明 可 以 借助 数据 挖掘 技术 来 实现 自动 化 。 如 今 作 者 分 析 的 研究 工作 几乎 都 是 用 数据 挖掘 方法 来 解 
决 ， 但 仍 有 不 少 研究 偏重 于 人 工分 析 作品 语言 风格 。 

作者 分 析 问 题 衍生 出 很 多 更 细 的 问题 ， 主 要 有 以 下 儿 个 。 

口 作者 画像 : 根据 作品 界定 作者 的 年 龄 、 性 别 或 其 他 特性 。 例 如 ， 通 过 观察 一 个 人 讲 英 语 
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的 方式 ， 判 断 英 语 是 否 为 他 的 母语 。 
口 作者 验证 : 根据 作者 已 有 作品 ， 推 断 其 他 作品 是 否 也 是 他 写 的 。 拿 法 庭 断案 场景 来 讲 更 
好 理解 ， 例 如 ， 分 析 嫌 犯 的 写作 风格 〈 内 容 方面 )， 以 确定 勒索 信和 是 不 是 他 写 的 。 
口 作者 聚 类 : 作者 验证 问题 的 延伸 ， 用 聚 类 分 析 方 法 把 作品 按照 作者 进行 分 类 。 


然而 , 作者 分 析 研 究 领域 最 常见 的 还 是 作者 归属 问题 , 即 如 何 从 一 群 作者 中 找到 作品 的 真正 
主人 。 






































9.1.1 相关 应 用 和 使 用 场景 


作者 分 析 有 很 多 应 用 场景 ， 比 如 证 实 作 者 是 谁 , 证 实 几 本 书 有 相同 的 作者 , 或 者 寻找 社会 媒 
体 账 号 的 主人 。 


从 历史 意义 上 来 说 , 作者 分 析 可 用 来 核实 某 些 文档 是 否 真 由 公认 的 作者 所 写 。 有些 作 品 的 作 
者 就 存在 争议 ， 比 如 莎士比亚 的 几 部 戏剧 ,美国 建国 时 期 的 联邦 党 人 文集 等 。 


单 任 作者 分 析 无 法 确定 作者 到 底 是 谁 , 但 是 能 够 提供 支持 或 反 驶 某 一 观点 的 依据 。 例 如, 在 检 
验 一 首 十 四 行 诗 是 否 是 莎士比亚 所 写 前 ， 我 们 可 以 先 分 析 他 的 若干 部 剧 作 ， 和 弄 清楚 他 的 写作 风格 。 


作者 分 析 问 题 最 近 几 年 也 被 用 来 确定 社会 媒体 账号 到 底 是 谁 在 使 用 。 例如 , 一 个 恶意 用 户 可 
能 在 不 同 社交 平台 创建 多 个 账号 。 把 它们 关联 起 来 后 ， 便 于 监管 部 门 跟踪 幕后 的 黑手 一 一 例如 ， 
当 扰乱 其 他 用 户 时 。 


举 个 陈旧 点 的 例子 , 法 庭 上 视 作 者 分 析 为 核心 技术 , 主要 靠 它 来 提供 文档 是 否 出 自 嫌犯 之 手 
的 证 据 。 例 如 ， 嫌 疑犯 可 能 因为 发 骚扰 邮件 而 被 起 诉 。 作 者 分 析 就 能 确定 邮件 是 否 是 嫌犯 所 写 。 
另 一 个 在 法 庭 中 的 使 用 场景 是 ,解决 作品 归属 纠纷 。 比 如 ， 遇 到 两 个 人 就 一 本 书 到 底 是 谁 写 的 而 
纠缠 不 已 的 情况 ， 法 庭 就 可 以 借助 作者 分 析 技术 找到 作者 可 能 是 谁 的 证 据 。 

作者 分 析 也 并 不 是 绝对 可 靠 的 。 最 近 研 究 发 现 ,即使 没有 经 过 专业 训练 的 人 ,证 他 们 隐藏 自 
己 的 写作 风格 ,也 会 让 作者 归属 问题 变 得 困难 无 比 。 研 究 人 员 还 探讨 了 模仿 别人 写作 风格 的 问题 ， 
结果 发 现 人 们 模仿 得 很 像 ， 作 者 分 析 的 结果 是 这 些 伪 作出 自 被 模仿 人 之 手 。 

尽管 存在 很 多 问题 ， 作 者 分 析 在 越 来 越 多 的 领域 被 证 实 十 分 有 用 ， 它 是 一 个 非常 有 意思 的 、 
值得 研究 的 数据 挖掘 问题 。 





































































































































































































9.1.2 ”作者 归属 


作者 归属 可 以 看 作 是 一 种 分 类 问题 , 已 知 一 部 分 作者 , 数据 集 为 多 个 作者 的 作品 ( 训练 集 )， 
目标 是 确定 一 组 作者 不 详 的 作品 ( 测试 集 ) 是 谁 写 的 。 如 果 作 者 恰好 是 已 知 的 作者 里 面 的 ， 这 种 
问题 叫 作 封 闭 问题 。 
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训练 集 


可 能 的 作者 























如 果 作者 可 能 不 在 里 面 , 这 种 问题 就 叫 作 开放 问题 。 不 只 是 作者 归属 问题 可 以 这 样 区 分 
任何 数据 挖掘 应 用 ,只 要 实际 的 类 别 可 能 不 在 训练 集中 的 都 叫 作 开放 问题 , 对 于 这 类 问题 进行 控 
据 ， 最终 目 标 分 两 种 情况 ， 如 果 在 训练 集中 ,就 返回 找到 的 类 别 ， 如 果 不 在 , 要 给 出 不 属于 任何 
现 有 类 别 的 提示 。 














可 能 的 作者 不 在 
可 能 的 作者 训练 集中 
































在 进行 作者 归属 研究 时 , 一 般 会 受到 两 个 限制 。 一 是 只 外 
时 间 、 印 刷 形式 、 笔 迹 等 信息 。 当 然 也 有 这 样 的 做 法 ,把 这 些 
就 不 是 作者 归属 而 更 像 是 数据 融合 问题 。 


第 二 个 限制 是 不 考虑 作品 的 主题 ， 相 反 ， 关 注 单词 用 法 、 标 点 和 其 他 文本 特征 。 原 因 在 于 ， 
一 个 人 如 果 是 多 面 手 , 可 以 写 多 个 主题 的 内 容 , 作品 的 主题 就 不 能 反映 作者 的 实际 写作 风格 。 关 
注 主题 关键 字 可 能 会 导致 过 度 拟 合 训练 集 一 一 模型 可 能 只 是 用 同一 个 作者 的 同一 个 主题 的 作品 
进行 训练 。 例 如 ， 根 据 我 写 的 这 本 书 为 我 的 写作 风格 建 模 ， 可 能 会 得 出 “数据 挖 握 ” 这 个 词 能 代 
表 我 的 风格 这 样 的 结论 ， 而 事实 上 ， 我 还 写 一 些 其 他 主题 的 内 容 。 


接 下 来 ， 用 于 作者 归属 问题 的 流水 线 跟 第 6 章 所 用 的 很 相似 。 首 先 ， 从 文本 中 抽取 特征 ; 然 
后 ， 对 抽 到 的 特征 做 进一步 王选 ; 最 后 ， 训 练 算法 分 类 器 ， 预 测 文档 的 类 别 〈 作 者 )。 

当然 有 些 步 又 跟 第 6 章 还 是 存在 一 些 差别 ， 主 要 集中 在 特征 选取 方面 ， 后 面 会 详细 讲 。 我 们 
还 是 先 来 划 定 待 解决 问题 的 范围 。 


使 用 作品 的 内 容 ， 而 不 能 使 用 写作 
gE 信息 整合 到 模型 中 ,但 一 般 来 说 这 


















































9.1.3 ”获取 数据 


本 章 所 用 的 图 书 数据 集 来 自 于 古 腾 堡 计划 网 站 ( www.gutenberg.org )， 该 网 站 收集 了 大 量 版 
权 失 效 的 公 版 文学 作品 。 实 验 用 到 以 下 作家 的 若干 作品 。 
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口 塔 金 顿 ( Booth Tarkington，22 篇 ) 

口 狄更斯 ( Charles Dickens，44 篇 ) 

口 伊 迪 斯 . 内 斯 比特 (Edith Nesbit，10 篇 ) 

口 阿 瑟 : 柯南 . 道 尔 ( Arthur Conan Doyle，51 篇 ) 

口 马克 ' 吐 温 (Mark Twain，29 篇 ) 

口 理 查 德 . 弗朗西斯 . 伯 屯 锁 士 (Sir Richard Francis Burton，11 篇 ) 
口 埃 米 尔 . 加 博 里 奥 ( Emile Gaboriau，10 篇 ) 


以 上 总 共 是 7 位 作家 的 177 篇 作品 , 文本 数量 还 是 相当 可 观 的 。 作 品名 称 列表 、 下 载 链接 以 及 
自动 下 载 图 书 的 代码 请 见 本 书 配套 的 代码 包 。 


用 requests 库 下 载 作品 文件 到 数据 文件 夹 所 在 的 目录 。 首 先 ， 在 Data 目 录 下 创建 文件 夹 存 
放 这 些 作 品 。 注 意 ， 下 面 代码 指定 的 文件 目录 跟 你 实际 创建 的 文件 夹 目录 保持 一 致 。 













































































import os 
import sys 
data_folder = os.path.join(os.path.expanduser ("~"), "Data", "books") 


接着 , 就 可 以 使 用 代码 包 中 我 写 好 的 代码 ， 从 古 腾 堡 计划 的 网 站 下 载 图 书 。 下 载 完 后 将 其 保 
存 到 我 们 上 面 创建 的 目录 中 。 


从 代码 包 Chapter 9 文件 夹 中 找到 getdata.py, 保存 到 笔记 本 文件 所 在 目录 下 , 在 新 格子 中 输入 
以 下 代码 。 


!load getdata.py 


在 笔记 本 中 ， 按 下 Shift+Enter 运 行 该 格子 的 代码 。 代 码 将 会 加 载 到 格子 中 。 然 后 再 次 点 击 代 
码 ， 按 下 Shift+Enter 运 行 加 载 的 代码 。 代 码 要 运行 一 段 时 间 ， 运 行 完 毕 后 会 提示 你 。 

大 体 翻 看 一 下 下 载 的 作品 , 你 会 发 现 大 部 分 都 包含 很 多 噪音 一 一 从 数据 分 析 的 角度 看 至 少 是 
这 样 的 。 每 篇 作品 前 都 有 大 段 的 声明 文字 ， 开 始 数据 分 析 之 前 ， 得 先 把 它们 删 掉 。 

我 们 可 以 直接 从 文件 里 将 这 些 免 责 声明 删除 , 但 是 丢失 数据 怎么 办 ?我 们 可 能 会 丢失 先前 做 
过 的 改动 , 从 而 导致 实验 结果 无 法 重 现 ,因此 , 不 如 在 加 载 文件 时 跳 过 这 部 分 一 一 这 样 再 次 用 这 
些 文件 做 实验 时 ， 也 能 得 到 同样 的 结果 〈 只 要 原文 件 没 变 )。 代码 如 下 : 















































def clean book (document): 


每 篇 作品 前 后 各 有 一 行文 字 , 标识 作品 的 开头 和 结尾 ,作品 前 后 为 古 腾 堡 项 目的 说 明 。 既 然 
我 们 能 根据 这 两 行 找 到 作品 内 容 ， 因 此 ， 就 按 行 来 切 分 。 





lines = Qqocument .split("\n") 


遍历 文档 的 每 一 行 ， 寻 找 作品 的 开头 和 结尾 ， 中 间 部 分 就 是 作品 内 容 。 代 码 如 下 : 
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start E00 
end = len(lines) 
for i in range(len(lines)): 
line = lines[i] 
if line.startswith("*** START OF THIS PROJECT GUTENBERG"): 
start ej 1 
elif line.startswith("*** END OF THIS PROJECT GUTENBERG"): 
end =i-1 


函数 最 后 ， 用 换行 符 把 所 有 行 再 连接 起 来 ， 得 到 作品 内 容 。 


return "\n".join(lines[start:end]) 


现在 , 我 们 可 以 创建 一 个 函数 ， 加 载 所 有 图 书 ， 进行 上 述 预 处 理 操 作 ， 返回 书 的 内 容 以 及 作 
家 序号 "。 先 来 导入 numpy。 


import numpy as np 


声明 加 载 图 书 的 函数 ， 参 数 为 图 书 所 在 目录 books， 该 目录 下 是 一 系列 以 作者 名 字 命 名 的 子 
文件 夹 ， 图 书 文件 就 在 这 些 子 文件 夹 中 。 代 码 如 下 : 


def load_ books_data(folder=data_folder): 
创建 两 个 列表 ， 分别 用 来 存储 文档 和 作者 。 


documents = [] 
authors = [] 


获取 到 books 目 录 下 所 有 的 子 文件 来 。 代 码 如 下 : 

















subfolders = [subfolder for subfolder in os.listdir(folder) 
if os.path.isdir(os.path.join(folder, 
subfolder))] 


遍历 这 些 子 文件 严 ， 使 用 enumerate 国 数 为 这 些 子 文件 夹 指定 索引 。 
for author_number, subfolder in enumerate(subfolders): 
获取 到 子 文件 夹 的 绝对 路 径 ， 查 找 里 面 的 所 有 图 书 文件 。 


full_subfolder_ path = os.path.join(folder, subfolder) 
for document_ name in os.listdir(full_subfolder path): 


对 于 找到 的 每 一 个 图 书 文件 ， 打 开 后 读 取 里 面 的 内 容 ， 对 内 容 进行 预 处 型 
documents 列 表 中 。 代 码 如 下 : 


虎 


后 ,将 其 添加 到 


藤 
AM 





with open(os.path.join(full_subfolder_path, 
document_name)) as inf: 
documents .append(clean_book(inf.readq())) 














用 索 





NE 





引 来 表示 ， 详 见 下 文 。 一 一 译 者 注 
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dt 





分 配给 作家 的 索引 号 添加 到 authors 列 表 中 ， 其 实 authors 就 是 类 别 列表 。 
authors.append (author_number) 


函数 最 后 返回 文档 和 类 别 ( 把 类 别 列表 转换 为 numpy 数 组 )。 





return documents, np.array (authors, dtype='int') 
调用 上 面 定义 的 加 载 图 书 函数 ， 就 能 获得 图 书 文档 及 其 它们 的 类 别 。 
documents, classes = load_ books_datal(data_folder) 


yl 把 这 些 数 据 加 载 到 内 存 没有 问题 , 因此 , 我 们 可 以 立即 加 载 。 如 果 数 据 集 太 
Q 大 ， 内 存 装 不 下 ， 较 好 的 方法 是 每 次 只 从 一 篇 (或 几 篇 ) 文档 中 抽取 特征 ， 把 这 
些 特征 保存 到 文件 或 位 于 内 存 的 矩阵 中 。 


9.2 功能 词 


功能 词 是 作者 分 析 问 题 最 早 使 用 的 一 类 特征 ,到 现在 来 看 , 在 词 袋 模型 中 使 用 功能 词 做 特征 
效果 依然 不 错 。 功 能 词 指 的 是 本 身 具 有 很 少 含义 , 却 是 组 成 (英语 ) 句子 必 不 可 少 的 成 分 。 例 如 ， 
单词 this 和 which 的 意思 不 是 由 它们 本 身 的 含义 所 决定 ， 而 是 由 它们 在 句子 中 充当 的 角色 来 决定 。 
与 功能 词 相对 的 是 实 词 ， 比 如 tiger 就 有 明确 的 含义 ， 当 人 们 在 句子 中 看 到 这 个 单词 时 ， 脑 海中 就 
会 浮现 出 大 型 猫 科 动 物 老 虎 的 样子 。 


有 些 功 能 词 的 用 法 并 不 总 是 清晰 、 明 确 的 。 因 此 ， 从 经 验 来 看 ,选用 使 用 频率 较 高 的 功能 词 
做 特征 比较 好 ( 在 所 有 文档 中 使 用 频率 高 ， 而 不 仅 是 在 单个 作者 的 作品 中 )。 通 常 而 言 ， 使 用 越 
频繁 的 单词 ， 对 于 作者 分 析 能 提供 更 多 有 价值 的 信息 。 相 反 ， 使 用 频率 较 低 的 单词 ， 更 适合 用 来 
做 基于 内 容 的 文本 挖掘 ， 例 如 下 章 要 讲 的 文档 主题 划分 。 


作者 写作 习惯 














































































































频率 〈log) 














jm 


和 词 (按照 位 次 排序 ) 


功能 词 的 使 用 通常 不 是 由 文档 内 容 而 是 由 作者 的 使 用 习惯 所 决定 , 因此 可 以 用 它们 来 区 分 不 
同 的 作者 。 例 如 ,很 多 美国 人 比较 在 意 区 分 that 和 which 在 句子 中 的 用 法 ,澳大利亚 等 国家 的 人 就 















































不 太 在 意 。 在 使 用 这 两 个 词 的 地 方 有些 澳大利亚 人 要 么 几乎 无 一 例外 地 都 用 that， 要 么 是 which 
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用 得 多 一 点 。 这 样 的 不 同 点 , 再 加 上 成 千 上 万 个 其 他 的 微小 差别 , 就 形成 了 用 于 作者 分 析 的 模型 。 


9.2.1 统计 功能 词 

我 们 可 以 使 用 第 6 章 所 用 到 的 CountVec toriz er 统计 功能 词 o 我 们 把 包含 所 有 要 查找 的 单词 
的 词汇 表 ( vocabulary ) 传递 进去 ， 如 果 没 有 传 词汇 表 ( 第 6 章 就 没有 ) ， 它 会 从 数据 集中 学 习 。 
所 有 单词 都 在 训练 集中 ( 取决 于 其 他 参数 ) 。 


首先 , 创建 功能 词 词 汇 表 , 用 列表 存储 。 至 于 确切 来 说 哪些 是 功能 词 , 哪些 不 是 , 有 待 商 榨 。 
我 从 已 发 表 的 研究 成 果 中 找到 下 面 这 些 功 能 词 ， 它 们 还 是 比较 可 靠 的 。 
































function words = ["a", "able", "aboard", "about", "above", "absent", 
"according" , "accordingly", "across", "after", "against", 
"ahead", "albeit", "all", "along", "alongside", "although", 
"am", "amid", "amidst", "among", "amongst", "amount", "an", 
"and", "another", "anti", "any", "anybody", "anyone", 
"anything", "are", "around", "as", "aside", "astraddle", 
"astride", "at", "away", "bar", "barring", "be", "because", 
"been", "before", "behind", "being", "below", "beneath", 
"beside", "besides", "better", "between", "beyond", "bit", 
GE 
"concerning", "consequently", "considering", "could", 
"couple", "dare", "deal", "despite", "down", "due", "during", 
"each", "eight", "eighth", "either", "enough", "every", 
"everybody", "everyone", "everything", "except", "excepting", 
"excluding", "failing", "few", "fewer", "fifth", "first", 
"fiver EOLLIOWING™,. TfoOrT, Vfour™ fourth To WEPOm®, EroOnt™,; 
"given", "good", "great", "had", "half", "have", "he", 
"heaps", "hence", "her", "hers", "herself", "him", "himself", 
"his", "however", "i", "if", "in", "including", "inside", 
"ijnstead", "into", "is", "it", "its", "itself", "keeping", 
Lac LESev "TTIRe,. LICELE, Oddes™ TIOCS., "majority 
"many", "masses", "may", "me", "might", "mine", "minority", 
"minvus";. "morer; most™, "mchrs "mast; my meeLrf™, 
"near", "need", "neither", "nevertheless", "next", "nine", 
vant mmoly. "mobody™,. "TonNneT,. moOr., "nothinor, 
"notwithstanding", "number", "numbers", "of", "off", "on", 
"once", "one", "onto", "opposite", "or", "other", "ought", 
"our", "ours", "ourselves", "out", "outside", "over", "part", 
"past", "pending", "per", "pertaining", "place", "plenty", 
"plethora", "plus", "gquantities", "gquantity", "quarter", 
"regarding", "remainder", "respecting", "rest", "round", 
"save", "saving", "second", "seven", "seventh", "several", 
"shall", "she", "should", "similar", "since", "six", "sixth", 
"so", "some", "somebody", "someone", "something", "spite", 
eu "sy. Een™,. "Centho “enarn'., thanke, "that.y. "the 
"their", "theirs", "them", "themselves", "then", "thence", 
"therefore", "these", "they", "third", "this", "those", 

的 GUO 入 "tlree”,. “throwl",. "throughout.,. ‘thr thas 


ve MTELmMe, "MEO MEONS"s TEOO™,, TUOWAard, "toOwWardSs.™s 
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"two", "under", "underneath", "unless", "unlike", "until", 
"nto. -SB ~ Upom yy Me Sed various "ss "versusY.; 
"via", "view", "wanting", "was", "we", "were", "what", 
"whatever", "when", "whenever", "where", "whereas", 
"wherever", "whether", "which", "whichever", "while", 
"whilst", "who", "whoever", "whole", "whom", "whomever", 
"whose", "will", "with", "within", "without", "would", "yet", 
"you", "your", "yours", "yourself", "yourselves"] 


既然 有 了 功能 词 列表 ， 我 们 就 来 创建 功能 词 统计 工具 。 后 面 ， 会 把 它 加 到 流水 线 中 。 





from sklearn.feature extraction.text import CountVectorizer 
extractor = CountVectorizer(vocabulary=function words) 


9.2.2 ”用 功能 词 进行 分 类 


接 下 来 ,导入 所 需 的 几 个 类 , 唯一 的 新 内 容 支 持 向 量 机 在 下 市 会 讲 (现在 把 它 看 作 是 标准 的 
分 类 算法 即 可 ) 。 导 入 用 支持 向 量 机 算法 进行 分 类 的 svc 类 ， 以 及 其 他 一 些 我 们 用 过 的 标准 工作 
流 工具 。 

















from sklearn.svm import SVC 

from sklearn.cross_validation import cross_val_score 
from sklearn.pipeline import Pipeline 

from sklearn import grid_ search 


支持 向量 机 接收 一 系列 参数 。 现 阶段 照 我 设置 的 参数 来 就 行 ， 下 市 再 深入 探讨 参数 值 选择 。 
我 们 用 字典 结构 来 组 织 参 数 。 参 数 kernel 使 用 1inear 和 rpbf。C 的 值 取 1 或 10 ( 参数 说 明 请 见 下 
节 ) 。 接 着 用 网 络 搜索 法 寻找 最 优 参数 值 。 

parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]} 


svr = SVC() 
grid = grid search.GridSearchCV (svr, parameters) 


| 总 高 斯 内 核 ( 例如 rbf ) 只 适用 于 数据 集 相 对 较 小 的 情况 ， 比 如 特征 数 少 于 
10 000。 





接着 , 创建 流水 线 ， 把 特征 抽取 和 参数 搜索 两 个 步骤 加 入 到 流水 线 中 ,特征 ( 仅 功 能 词 ) 抽 
取 使 用 countVectorizer 类 ， 参 数 搜 索 使 用 SVM。 代 码 如 下 : 





pipelinel = Pipeline([('feature extraction', extractor), 
Celf. "ELA 
]) 
然后 ， 使 用 cross_val_score 对 该 流水 线 的 结果 进行 交叉 检验 ， 正 确 率 为 0.811， 大 约 80% 
的 预测 结果 正确 。 对 于 只 有 7 个 作者 来 说 ， 这 个 结果 很 好 ! 





150 第 9 章 作者 归属 问题 


9.3 支持 向 量 机 


支持 向 量 机 (SVM ) 分 类 算法 背后 的 思想 很 简单 ， 它 是 一 种 二 类 分 类 咒 ( 扩展 后 可 用 来 对 多 
个 类 别 进 行 分 类 ) 。 假 如 我 们 有 两 个 类 别 的 数据 ， 而 这 两 个 类 别 恰 好 能 被 一 条 线 分 开 , 线 上 所 有 
点 为 一 类 , 线 下 所 有 点 属于 另 一 类 。SVM 要 做 的 就 是 找到 这 条 线 , 用 它 来 做 预测 ， 跟 线性 回归 原 
理 很 像 。 只 是 SVM 要 找 出 最 佳 的 分 割 线 。 下 图 中 有 三 条 线 , 分 别 为 蓝 色 、 黑 色 和 绿色 线 ， 都 能 把 
两 类 数据 区 分 开 来 。 你 说 哪 条 分 类 效果 更 好 呢 ? 
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赁 直觉 ， 人 们 往往 会 选择 从 左下 到 右上 的 这 条 线 "， 它 把 两 类 数据 更 好 地 分 开 了 。 也 就 是 说 ， 
数据 集中 的 每 个 点 到 这 条 线 的 距离 都 是 最 远 的 。 


找到 这 样 的 一 条 线 其 实 是 最 优化 问题 ， 也 就 是 要 让 各 点 到 分 割 线 之 间 的 距离 最 大 化 。 


















































虽然 最 优化 问题 的 公式 推导 不 在 本 书 讲述 范围 之 列 ,我 还 是 建议 感 兴趣 的 读 

者 自行 查看 http:Wen.wikibooks.org/wiki/Support Vector Machines, 了 解 详细 步骤 。 

此 外 ， 你 还 可 以 访问 http://docs.opencv.org/doc/tutorials/ml/introduction to_svm/ 
introduction to_svm.html， 了 解 支 持 向 量 机 相关 内 容 。 











Q@ 如 果 你 查看 原 书 PDF 文 件 的 话 ， 这 条 线 指 的 是 图 中 的 蓝 线 。PDF 文 件 获 取 方 法 请 见 前 言 部 分 。 建 议 读者 下 载 查看 。 
彩色 图 毕 竞 比 黑白 图 形象 。 一 一 译 者 注 
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9.3.1 用 SVM 分 类 


模型 训练 完毕 ， 就 能 找到 使 得 两 类 之 间 间 隔 最 大 的 一 条 线 。 新 数据 点 分 类 问题 就 简化 为 : 数 
据点 在 线 上 还 是 线 下 ? 如 果 在 线 上 , 就 被 分 到 线 上 那 一 类 ; 如 果 位 于 线 下 , 自然 属于 线 下 那 一 类 。 


对 于 多 种 类 别 的 分 类 问题 , 我 们 创建 多 个 SVM 分 类 器 一 一 每 个 还 是 二 类 分 类 器 。 连接 多 个 分 
类 器 有 不 少 方法 ， 从 中 任 选 一 种 即 可 。 最 简单 的 方法 是 为 每 个 类 别 创建 一 对 多 ( one-versus-all ) 
分 类 器 , 把 训练 数据 分 为 两 个 类 别 一 一 属于 特定 类 别 的 数据 和 其 他 所 有 类 别 数据 。 对 新 数据 进行 
分 类 时 ， 从 这 些 类 别 中 找 出 最 匹配 的 。 大 多 数 SVM 多 类 分 类 器 都 能 自动 完成 上 述 过 程 。 


前 面 代码 中 有 两 个 参数 : c 和 kernel。 kerne1 人 参数 下 节 讲 , c 参 数 对 于 训练 SVM 来 说 很 重要 ， 
我 们 现在 来 讲 下 。c 参 数 与 分 类 器 正确 分 类 比例 相关 , 但 可 能 带 来 过 拟 合 的 风险 。c 值 越 高 , 间隔 
越 小 ,表示 要 尽 可 能 把 所 有 数据 正确 分 类 。c 值 越 小 , 间隔 越 大 一 一 有 些 数据 将 无 法 正确 分 类 。c 
值 低 ， 过 拟 合 训练 数据 的 可 能 性 就 低 ， 但 是 分 类 效果 可 能 会 相对 较 差 。 


SVM ( 基础 形式 ) 局 限 性 之 一 就 是 只 能 用 来 对 线性 可 分 的 数据 进行 分 类 。 如 果 线 性 不 可 分 
呢 ?” 这 时 我 们 就 要 用 到 内 核 函 数 。 









































9.3.2 内核 


如 果 数 据 线性 不 可 分 , 就 需要 将 其 置信 更 高 维 的 空间 中 , 加 入 更 多 伪 特 征 直到 数据 线性 可 分 
( 如 果 你 加 入 足够 多 恰当 的 特征 ， 总 能 把 数据 分 开 ) 。 


寻找 最 佳 分 隔 线 时 往往 需要 计算 个 体 之 间 的 内 积 ”"。 对 于 使 用 点 积 ( dot product ) 的 函数 , 我 
们 可 以 创建 新 特征 而 无 需 实际 定义 这 些 特 征 。 因 为 我 们 不 知道 这 些 特征 到 底 是 什么 样子 , 所 以 用 
点 积 很 方便 。 我 们 把 内 核 函 数 定义 为 数据 集中 两 个 个 体 函 数 的 点 积 ， 而 不 是 使 用 个 体 自身 ( 及 构 
造 的 特征 ) 。 


接 下 来 就 可 以 计算 点 积 (或 近似 值 ) ， 然 后 就 能 使 用 它 。 


常用 的 内 核 函 数 有 几 种 。 线 性 内 核 最 简单 ， 它 无 外 乎 两 个 个 体 的 特征 向 量 的 点 积 、 带 权重 的 
特征 和 偏 置 项 。 多 项 式 内 核 提 高 点 积 的 阶 数 ( 比如 2 ) 。 此 外 ， 还 有 高 斯 内 核 (Tbf ) 、Sigmoind 
内 核 。 前 面 例子 中 ,我们 比较 了 线性 内 核 和 rbf 内 核 的 效果 。 


这 些 内 核能 够 有 效 地 确定 两 类 数据 之 间 的 距离 ,SVM 可 以 据 此 对 新 数据 进行 分 类 。 理 论 上 讲 ， 
任何 距离 度量 方法 都 可 以 用 ， 但 是 在 训练 SVM 时 ， 最 优化 问题 的 复杂 程度 会 有 所 不 同 。 


scikit-learn 实 现 的 SVM， 可 以 通过 kernel1 人 参数 指定 内 核 函 数 ， 正 如 我 们 在 前 面 例子 中 
见 过 的 。 




































































Q@ inner product， 也 称 作 点 积 。 一 一 译 者 注 
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9.4 ”字符 N 元 语法 


我 们 前 面 研 究 的 是 如 何 用 功能 词 做 特征 预测 文档 的 作者 。 接 下 来 看 下 字符 N 元 语法 特征 。N 
元 语法 由 一 系列 的 N 个 为 一 组 的 对 象 组 成 。N 为 每 组 对 象 的 个 数 ( 对 于 文本 来 说 ，N 通 常 取 2 到 6 
之 间 的 值 ) 。 基 于 单词 的 N 元 语法 被 广泛 用 在 通常 与 文档 主题 相关 的 各 项 研究 中 。 然 而 ， 基 于 字 
符 的 N 元 语法 被 证 明 在 作者 归属 问题 上 效果 很 好 。 


我 们 可 以 把 文档 看 成 是 由 一 系列 字符 组 成 的 ， 从 里 面 抽取 NN 元 语法 ,训练 得 到 模型 。 常 用 模 
型 有 几 个 ， 其 中 标准 模型 跟 我 们 之 前 用 到 的 词 袋 模型 很 相似 。 

分 别 为 训练 语 料 中 各 个 不 同 的 N 元 语法 创建 一 个 特征 。 例如 ,由 字母 e、 空 格 和 字母 组 成 的 N 
元 语法 <e t>( 尖 插 号 标识 N 元 语法 的 边界 ， 不 是 N 元 语法 的 内 容 ) 。 然 后 ， 我 们 使 用 N 元 语法 在 
训练 集中 的 频率 训练 模型 ， 再 用 生成 的 特征 矩阵 训练 分 类 器 。 


基于 字符 的 N 元 语法 有 几 种 不 同 的 定义 方法 。 比 如 ， 有 些 应 用 只 选取 单词 内 
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字符 ,忽略 空格 和 标点 。 但 有 些 就 使 用 这 些 信息 ( 比如 我 们 这 一 章 ) 。 


关于 基于 字符 的 N 元 语法 为 什么 效果 比较 好 ， 广 为 接受 的 理论 是 ， 人 们 在 写作 时 ,往往 选取 
那些 他 们 讲 起 来 很 容易 的 单词 ， 而 字符 N 元 模型 ( 至 少 N 取 2 到 6 之 间 时 ) 跟 这 些 音素 具有 很 好 的 
相似 关系 一 一 音素 指 的 是 我 们 讲话 时 ， 组 成 单词 发 音 的 那些 声音 。 从 这 种 意义 上 讲 ， 用 字符 N 元 
模型 可 以 很 好 地 模拟 讲话 时 经 常用 到 的 单词 , 而 这 些 单词 形成 了 写作 风格 。 这 是 创建 新 特征 的 通 
用 模式 : 先 找 到 哪些 概念 影响 最 终结 果 ( 写作 风格 ) 的 理论 依据 ,然后 创建 跟 这 些 概念 相近 或 是 
能 够 量化 这 些 概念 的 特征 。 


字符 N 元 语法 矩阵 的 一 个 主要 特点 是 数据 稀 芍 ， 随 着 N 值 的 增加 ， 稀 琉 程 度 逐 渐 加 大 ， 且 速 
度 很 快 。N 取 2 时 , 我 们 的 特征 和 矩阵 中 大 约 75% 的 项 都 是 0，N 取 5 时 ，93% 以 上 的 项 为 0。 比 起 基于 
词语 的 N 元 语法 和 矩阵 来 说 ， 稀 玻 程 度 要 低 一 些 ， 因 此 ， 适 用 于 单词 分 类 的 分 类 需 处 理 数据 ， 不 会 
有 太 大 问题 。 

























































































抽取 字符 N 元 语法 
我 们 接 下 来 用 countVectorizer 类 来 抽取 N 元 语法 , 需要 设置 analyzer 参 数 , 指定 N 的 值 。 


scikit-learn 的 N 元 语法 抽取 工具 提供 了 range 参 数 , 允许 用 户 同时 抽取 不 同 长 度 的 N 元 语 
法 。 我 们 这 里 用 不 到 ， 只 抽取 相同 长 度 即 可 ，range 参 数 的 两 个 值 使 用 相同 值 即 可 。 要 抽取 长 度 
为 3 的 N 元 语法 ，range 的 值 需 要 设置 为 (3, 3)。 


我 们 可 以 重用 前 面 网 格 搜索 代码 ， 但 是 需要 在 新 流水 线 中 指定 新 的 特征 抽取 器 。 
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pipeline = Pipeline([('feature extraction', CountVectorizer(analyzer='" 
char', ngram_ range=(3, 3))), 

('classifier', grid) 

]) 
scores = cross val_score(pipeline, documents, classes, scoring='f1') 
print ("Score: {:.3f}".format (np.mean(scores))) 


攻 


9.5 ”使 用 安然 公司 数据 集 


安然 公司 ( Enron ) 是 20 志 纪 90 年 代 末 期 世界 上 最 大 的 能 源 公司 之 一 ， 年 收入 高 达 1000 亿 美 
元 。2000 年 时 ， 拥 有 20 000 余 名 员工 ， 看 不 出 公司 有 什么 严重 问题 。 


2001 年 ,安然 丑 疗 发生， 调查 人 员 发 现 安然 为 谋取 暴利 ,在 全 公司 范围 内 账 务 存在 系统 性 造 
假 现象 。 丑 闻 被 揭发 后 ， 安 然 公司 的 股价 从 2000 年 的 90 多 美元 一 下 子 跌 到 了 2001 年 的 1 美元 。 安 
然 随即 申请 破产 保护 ， 留 下 的 残局 ， 五 年 多 以 后 才 收 拾 干净 。 


作为 对 安然 公司 调查 的 一 部 分 ， 美 国联 邦 能 源 署 公开 了 60 多 万 封 电子 邮件 。 从 那 时 起 ， 这 
些 数据 就 被 广泛 应 用 于 社会 媒体 分 析 、 坎 诈 分 析 等 众多 问题 的 研究 。 这 些 数据 用 于 作者 归属 问 
题 研 究 也 不 错 ， 因 为 我 们 能 获得 发 件 人 及 他 们 写 的 邮件 ， 语 料 规模 比 之 前 见 过 的 很 多 数据 集 都 
要 大 得 多 。 


功能 词 和 字符 N 元 模型 之 间 存 在 大 量 隐 式 重合 ,因为 字符 序列 更 可 能 出 现在 
能 词 中 。 然而 , 实际 上 两 者 差别 很 大 , 字符 N 元 模型 能 够 捕获 标点 的 使 用 特点 ， 
能 词 自然 做 不 到 。 例如， 字符 N 元 语法 能 够 包含 句号 ,而 基于 功能 词 的 方法 就 
能 使 用 句号 前 的 单词 。 


汉人 过 















































9.5.1 获取 安然 数据 集 


安然 公司 的 邮件 可 以 从 卡 内 基 梅 隆 大 学 的 网 站 下 载 : https://www.cs.cmu.edu/~./enron/。 








整个 数据 集 为 4123MB， 压 缩 格式 为 gzip。 如 果 你 用 的 不 是 Linux 系 统 ， 可 以 
使 用 免费 的 7-zip ( (http://www.7-zip.org/ ) 等 软件 来 解压 。 


下 载 电子 邮件 语 料 ， 将 其 解压 到 Data 目 录 下 。 解 压 后 的 目录 默认 为 enron_mail 20110402。 


因为 要 做 作者 归属 分 析 , 我 们 只 需要 那些 明确 知道 发 件 人 是 谁 的 邮件 。 因 此， 查看 每 位 用 户 
的 发 件 夹 一 一 那里 面 存放 的 是 他 们 所 发 的 邮件 。 


在 笔记 本 中 ， 指 定安 然 数据 集 所 在 的 位 置 。 
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enron data_folder = os.path.join(os.path.expanduser ("~"), "Data", 
"enron mail_ 20110402", "maildir") 


9.5.2 ”创建 数据 集 加 载 工具 


我 们 现在 就 来 创建 一 个 函数 ， 它 接收 几 个 发 件 人 作为 参数 , 返回 他 们 所 发 送 的 邮件 。 我 们 需 
要 的 有 效 信息 是 邮件 内 容 而 不 是 邮件 本 身 。 因 此 ， 还 需要 邮件 解析 器 。 代 码 如 下 : 








from email.parser import Parser 
p = Parser() 


我 们 后 面 会 用 到 该 解析 器 从 邮件 中 抽取 邮件 内 容 。 
因为 是 随机 选取 收 件 人 ， 为 了 重 现实 验 结果 ， 我 们 设置 随机 状态 。 




















from sklearn.utils import check_random state 


数据 加 载 函 数 提供 几 个 参数 , 大 部 分 是 为 了 确保 得 到 的 数据 集 类 别 分 布 相对 比较 均衡 。 有 些 
用 户 发 了 成 千 上 万 封 邮件 ， 而 有 的 用 户 只 发 了 几 十 封 。 我 们 用 min_dqocs_author 人 参数 指定 每 个 
发 件 人 至 少 发 过 10 封 邮件 ， 用 max_docs_author 参 数 指定 最 多 从 一 个 用 户 那 里 抽取 100 封 邮件 。 
我 们 还 用 num_authors 限 定 了 收 件 人 数量 一 一 默认 为 10。 代 码 如 下 : 





























def get_enron_ corpus (num authors=10, data_ folder=data_folder, 
min docs_author=10, max_docs_author=100, 
random_state=None): 
random_state = check_random statel(random state) 


接 下 来 , 获取 到 安然 公司 员工 的 邮箱 , 邮箱 其 实 就 是 data_folder 文 件 夹 中 各 子 文件 夹 的 名 称 。 
随机 对 得 到 的 邮箱 列表 进行 排序 。 只 要 随机 状态 相同 ， 实 验 结果 就 可 以 重 现 。 








email_addresses = sorted(os.listdir(data_ foldqer)) 
random_ state.shuffle(email addresses) 


你 可 能 很 好 奇 我 们 既然 后 面 接着 要 随机 调整 顺序 , 那 为 什么 还 要 事先 进行 排 

序 。 因 为 os.1istaqitr 函 数 每 次 返回 结果 不 一 定 相同 ， 在 使 用 该 函数 前 先 排序 ， 

> 从 而 保持 返回 结果 的 一 致 性 。 然 后 我 们 用 随机 状态 的 shuffle 函 数 随机 选取 一 组 
收 件 人 。 如 果 需 要 的 话 ， 随 机 状态 函数 可 以 返回 跟 之 前 相同 的 结果 。 











然后 ， 我 们 创建 文档 列表 、 类 别 列表 ，author_num 指 的 是 每 个 新 发 件 人 的 类 别 编号 。 这 次 
我 们 不 用 enumerate 国 数 , 因为 有 些 发 件 人 我 们 用 不 到 。 例 如, 发 过 不 够 10 封 邮件 的 , 就 不 会 用 。 
代码 如 下 : 

documents = [] 


classes = [] 
author num = 0 
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我 们 还 需要 记录 我 们 所 用 到 的 收 件 人 及 他 们 的 编号 。 数 据 挖掘 过 程 用 不 到 , 但 是 在 可 视 化 时 
能 用 到 ， 便 于 我 们 确定 收 件 人 。authors 字 典 用 于 将 用 户 名 和 类 别 关 联 起 来 。 代 码 如 下 : 





authors = {} 


接 下 来 ,遍历 邮箱 文件 来， 查找 它 下 面 名 字 中 含有 “sent” 的 表示 发 件 箱 的 子 文件 来。 代码 
如 下 : 


for user in email_ addresses: 
users_email_folder = os.path.join(data_folder, user) 
mail_folders = [os.path.join(users_ email_ folder, 
subfolder) for subfolder in os.listdir(users_ email_folder) 
if "sent" in subfolder] 


获得 子 文件 夹 中 的 每 一 封 邮件 。 我 们 用 到 了 try-except 语 句 ， 因 为 有 些 用 户 的 发 件 箱 目 录 
还 有 子 目录 。 要 获取 目录 层次 更 深 的 邮件 , 我 们 的 代码 还 需要 做 些 改 进 , 现在 我 们 先 跳 过 这 些 用 
户 。 代 码 如 下 : 





tes 
authored emails = [open(os.path.join(mail_folder., 
email_filename), encoding='cp1252').read() 
for mail_folder in mail_folders 
for email_ filename in os.listdir(mail_ folder)] 
except IsADirectoryError: 
continue 


接 下 来 ,检测 是 否 获 取 到 了 至 少 10 封 邮件 (或 nin_docs_author 指 定 的 其 他 值 ) 。 


if len(authored emails) < min docs_author: 
continue 


下 一 步 ， 如 果 发 件 人 发 了 大 量 邮件 ， 只 取 前 100 封 (具体 数量 由 max_docs_author 指 定 ) 。 





if len(authored emails) > max_docs_author: 
authored_ emails = authored emails[:max_ docs_author] 


解析 邮件 ,获取 邮件 内 容 。 我 们 对 邮件 头 部 不 感 兴趣 一 一 发 件 人 所 能 改动 的 内 容 比较 少 ， 因 
此 对 作者 分 析 没 有 多 大 用 处 。 然 后 把 邮件 内 容 添 加 到 数据 集中 。 
contents = [p.parsestr(email)._payload for email in 


authored_ emails] 
documents.extend (contents) 


巴 该 发 件 人 添加 到 类 别 列表 中 ， 每 一 封 邮 件 添加 一 次 。 











at 





classes.extend([author num] * len(authored emails)) 


记录 该 收 件 人 的 编号 ， 再 把 编号 加 1， 以 便 下 一 个 收 件 人 使 用 。 





























authors[user] = author_num 
author_num += 1 
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检测 收 件 人 数量 是 否 达到 我 们 设置 的 值 ， 如 果 是 ， 跳 出 循环 ， 返 回 数据 集 。 





if author_num >= num authors or author_num >= 
len(email_addresses): 





break 
返回 邮件 数据 集 和 类 别 以 及 收 件 人 字典 。 
return documents, np.array (classes), authors 


在 上 述 函 数 的 外 面 , 调用 这 个 函数 , 我们 就 能 得 到 数据 集 ,我 们 使 用 随机 状态 14( 全 书 都 是 )， 
但 是 你 可 以 尝试 其 他 值 或 者 将 其 设置 为 none， 这 样 每 次 调用 这 个 函数 时 将 随机 获取 一 组 数据 。 








documents, classes, authors = get_enron corpus (data_folder=enron data_ 
folder, random state=14) 


如 果 你 看 下 现 有 的 数据 集 , 你 就 会 发 现 还 需要 做 进一步 的 预 处 理 。 数 据 集 有 不 少 噪音 , 但 最 
致命 的 问题 ( 从 数据 分 析 角 度 看 ) 是 ， 它 还 包含 其 他 用 户 所 写 的 内 容 ， 回 复 邮 件 时 会 带 上 别人 之 
前 写 的 邮件 。 我 们 来 看 下 邮件 documents[100]: 


























Wt 
































lam disappointed on the timing but | understand. Thanks. Mark 
一 -一 Original Message-———- 

From: Greenberg, Mark 

Sent: Fridny, September 28, 2001 4:19 PM 

To: Haedicke, MarkE. 

Subject: Web Site 

Mark - 


FYI -1 have attached belorww a screen shot of the proposed ne look and feel for the 
site. We have a couple of twweaks to make, but I believe this 1s a much cleaner look 


than what we have norw, 


在 这 篇 文档 中 ， 上 面 的 邮件 是 对 下 面 邮件 的 回复 ， 这 种 情况 很 常见 。 第 一 部 分 是 来 自 Mark 
Haedicke ， 而 下 面 的 邮件 是 Mark Greenberg 写 给 Mark Haedicke 。 只 有 前 面 的 内 容 (第 一 处 
“-----Original Message-----” 之 前 ) 是 发 件 人 所 写 ， 这 才 是 我 们 所 关注 的 。 


抽取 这 些 信 息 不 容易 。 邮 件 没有 统一 的 格式 。 不 同 的 邮件 服务 提供 商 使 用 不 同 的 头 部 ， 对 于 
回复 内 容 有 不 同 的 定义 形式 ,简直 就 是 “为 所 欲 为 ”"。 就 是 在 这 样 的 环境 中 ， 电 子 邮 件 还 被 广 
泛 使 用 ,简直 就 是 一 个 奇迹 。 












































@ 读 到 此 处 ， 不 禁 想起 各 种 浏览 器 的 纷争 。 一 一 译 者 注 
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当然 还 是 有 些 共用 的 模式 可 以 用 。 我 们 可 以 用 quoteaquail 包 来 查找 邮件 中 的 新 内 容 ， 抛 弃 
被 回复 的 邮件 及 其 他 不 相干 信息 。 


~ 
| Q 你 可 以 使 用 pip 安 装 quotequail: pip3 install quotequail。 





我 们 编写 一 个 简单 的 函数 封装 quotequail 的 功能 ,方便 调用 它 处 理 所 有 的 文档 。 首 先导 入 
quotequail, 声明 函数 。 


import quotequail 
def remove_replies (email_ contents): 


接着 用 quotequai1l 把 邮件 解析 为 几 个 部 分 ， 返 回 字典 结构 。 代 码 如 下 : 
r = quotequail.unwrap (email_contents) 


有 时 候 ，z 可 能 为 none， 比 如 邮件 出 于 这 样 那样 的 原因 解析 失败 。 遇 到 这 种 情况 ， 邮 件 原 样 
返回 。 在 处 理 真实 数据 集 时 ， 经 常 需 要 检测 变量 值 是 否 为 空 。 代 码 如 下 : 


if r is None: 
return email_contents 


quotequail 的 返回 结果 中 ， 我 们 真正 需要 的 是 text_top 这 部 分 。 如 果 字 典 + 中 存在 
text_top， 返回 它 的 值 。 























Ext COD Ln Ys 
return r['text_top'] 


如 果 不 存 在 ， 也 就 是 quotequail 没 能 找到 该 键 。 它 也 可 能 找到 了 text 键 ， 那 返回 text 的 
值 。 代码 如 下 : 


全 EGE 
return rl['text'] 


最 后 ， 如 果 这 两 个 键 都 没有 找到 ， 返 回 邮 件 全 部 内 容 ， 和 希望 多 少 会 对 数据 分 析 有 点 用 处 。 








return email_contents 


对 数据 集中 的 每 一 封 邮件 ,运行 上 述 函 数 ， 做 一 遍 预 处 理 。 








documents = [remove_replies (document) for document in documents] 


我 们 之 前 看 过 的 那 封 含有 被 回复 邮件 的 文档 ， 经 过 处 理 后 ， 只 包含 Mark Greenberg 所 发 的 
内 容 。 


Tam disappointed on the timing but I understand. Thanks. Mark 
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9.5.3 组 装 起 来 


我 们 可 以 使 用 前 面 实验 所 用 到 的 参数 空间 和 分 类 器 一 一 在 新 数据 集 上 进行 训练 。 默 认 情 况 
，SCikit-learn 会 重新 进行 训练 一 一 后 续 调 用 fit () 函数 将 会 丢掉 之 前 的 信息 。 




















i 

还 有 一 类 算法 叫 作 线 上 学 习 , 它们 使 用 新 数据 更 新 训练 结果 , 但 不 是 每 次 者 

重新 进行 训练 。 后续 章节 包括 第 10 章 新 闻 语 料 分 类 , 我们 会 实际 用 到 线 上 学 习 这 
类 算法 。 





跟前 面 一 样 ， 我 们 使 用 cross_val_score 计 算 正确 率 并 输出 结果 。 代 码 如 下 : 





scores = cross_val_score(pipeline, documents, classes, scoring='f1') 
print ("Score: {:.3f}".format (np.mean(scores))) 


F1 值 为 0.523 ， 对 于 包含 这 么 多 噪音 的 数据 集 来 说 ， 结 果 还 算 可 以 。 添 加 更 多 数据 ( 比如 增 
加 max_qdocs_author 的 值 ) 应 该 会 提升 效果 。 








9.5.4 评估 


一 般 来 说 ， 只 凭借 一 个 数字 来 评估 效果 不 是 个 好 主意 ， 可 能 会 忽略 很 多 东西 。 拿 F 值 来 说 ， 
它 考察 的 点 就 比较 全 面 ,那些 分 类 结果 好 ， 却 没有 实际 用 处 的 雕 赎 小 技 也 就 不 能 蒙混 过 关 。 前 面 
多 次 使 用 的 正确 率 就 有 破绽 , 比如 邮件 过 滤器 把 所 有 邮件 归 为 垃圾 邮件 , 也 能 达到 80% 的 正确 率 ， 
但 是 这 种 方法 却 没 有 实际 用 处 。 出 于 这 个 原因 ， 我 们 还 要 对 评估 结果 进行 深入 探讨 。 

我 们 先 来 看 下 混淆 和 矩阵， 第 8 章 用 神经 网 络 破解 验证 码 曾 经 用 过 。 首 先 ， 对 测试 集 数 据 进 行 
预测 。 前 面 代 码 使 用 cross_val_score， 并 没有 给 出 可 用 的 训练 模型 ， 因 此 我 们 需要 重新 训练 
一 个 模型 。 我 们 先 来 把 语 料 切 分 为 训练 集 和 测试 集 。 

from sklearn.cross_validation import train test_spP11it 


training_documents, testing documents, y_train, y_test = 
train test_split(documents, classes, random state=14) 


接着 ， 把 训练 集 传 和 流水线， 进行 训练 ， 接 着 对 测试 集 进 行 预测 。 


















































pipeline.fit (training_ documents, y_train) 
y_pred = pipeline.predict (testing_documents) 


你 可 能 想 知道 最 好 的 参数 组 合 是 什么 。 我 们 可 以 方便 地 从 网 格 搜索 对 象 ( 流水 线 
classifier 这 一 步 ) 中 获取 到 这 些 参数 组 合 。 


print (Pipeline.named_steps['classifier'].best_params_) 


上 述 代 码 输 出 分 类 器 的 所 有 参数 。 然 而 大 部 分 参数 都 使 用 默认 值 。 只 有 cC 和 kernel 两 个 参数 ， 
我 们 使 用 网 格 搜索 寻找 合适 的 值 ， 它 们 分 别 被 设置 为 1 和 linear。 
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创建 混淆 矩阵 : 


from sklearn.metrics import confusion matrix 
cm = confusion matrix(y_pred, y_test) 
cm = cm / cm.astype (np.float).sum(axis=1) 


我 们 接 下 来 作 图 要 用 到 刻度 ， 因 此 需要 取 到 发 件 人 。 还 好 ， 加载 数据 集 时 ,我 们 用 字典 来 保 
存 了 发 件 人 及 其 编号 。 代 码 如 下 : 


sorted_ authors = sorted(authors.keys(), key=lambda x:authors[x]) 


最 后 , 使 用 matplotlib 绘 制 混 淆 和 矩阵。 代码 跟 上 章 大 同 小 异 , 不 同 的 地 方 用 粗 体 表示 ， 只 是 把 
坐标 轴 刻 度 改 为 发 件 人 。 





smatplotlib inline 

from matplotlib import pyplot as plt 

plt .figure (figsize=(10,10)) 

plt.imshow(cm, cmap='Blues') 

tick_ marks = np.arange (len(sorted authors)) 
.Xticks (tick marks, sorted authors) 











E ( 

t.yticks (tick marks, sorted authors) 
plt .ylabel ('Actual') 
plt .xlabel ('Predicted') 
plt.show!() 


图 像 如 下 。 








dickson-s = 
haedicke-m[- | 


baughman-d 


hyvl-d 上 





semperger-c 上 十 


实际 发 件 人 


keiser-k 上 


grigsby-m 上 
-| 师 


derrick-j |- 和 


reitmeyerj[- 








| 
dickson-s haedicke-nbaughman-d hyvl-d semperger-c keiser-k grigsby-m rapp-b derrick-] meitmeyerj 


预测 发 件 人 
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我 们 可 以 看 到 哪些 发 件 人 在 大 多 数 情况 下 都 能 正确 预测 一 一 正确 率 高 的 形成 了 一 条 清晰 的 
对 角 线 。 我 们 还 能 看 出 哪些 发 件 人 的 邮件 经 常 被 弄 混 (颜色 越 深 弄 混 的 次 数 越 多 ) : 例如 ， 
baughman-d 的 邮件 经 党 被 当 作 是 reitmeyer-j 发 的 。 








9.6 小 结 


本 章 研 究 的 是 文本 挖 气 领域 中 的 作者 归属 问题 , 我 们 分 析 了 两 类 特征 的 效果 : 功能 词 和 字符 
NN 元 语法 。 我 们 在 词 袋 模型 中 使 用 功能 词 一 一 提前 选 好 的 一 组 词 ， 计 算出 这 些 词 的 词 频 。 字 符 N 
元 语法 的 处 理 流程 跟 基 于 单词 的 N 元 语法 很 相似 ， 但 是 分 析 器 转 而 关注 字符 而 不 是 单词 。 此 外 ， 
N 元 语法 由 一 系列 字符 组 成 。 单 词 N 元 语法 由 于 可 以 提供 单词 的 语 境 而 没有 增加 多 少 计算 量 ， 在 
某 些 应 用 中 也 值得 一 试 。 


我 们 用 SVM 来 进行 分 类 , 它 通过 找 出 使 得 两 个 类 别 之 间 间 隔 最 大 的 线 进 行 分 类 。 线 上 的 属于 
一 类 ， 线 下 的 属于 另外 一 类 。 跟 其 他 分 类 任务 一 样 ， 我 们 也 需要 有 数据 集 (邮件 ) 。 


我 们 使 用 安然 公司 的 邮件 作为 数据 集 ， 它 包含 很 多 噪音 ， 比 如 包含 被 回复 的 邮件 等 。 所 以 分 
类 效果 比 起 图 书 数据 集 要 差 不 少 。 然而 , 在 有 10 个 发 件 人 的 情况 下 ,半数 以 上 邮件 的 发 件 人 都 能 
预测 正确 。 


下 一 章 , 我 们 要 研究 的 问题 是 没有 目标 类 别 的 情况 下 ， 怎 么 对 数据 进行 分 类 。 这 种 叫 作 无 监 
督学 习 ， 比 起 预测 更 像 是 探索 性 问题 。 我 们 要 使 用 的 依然 是 充满 噪音 的 文本 数据 集 。 准 备 好 接受 
挑战 了 吗 ? 


































































































新 闻 语 料 分 类 




















前 面 大 部 分 章节 在 对 数据 进行 挖掘 前 , 新 数据 所 属 的 目标 类 别 范围 是 已 知 的 。 在 训练 过 程 中 ， 
我 们 能 够 了 解 到 变量 跟 类 别 之 间 存 在 怎样 的 关系 。 这 种 已 知 目标 类 别 的 学 习 任 务 , 叫 作 有 监督 学 
习 。 本 章 研究 的 是 在 不 知道 类 别 的 情况 下 如 何 进行 数据 挖 据 。 这 叫 作 无 监督 学 习 , 它 偏重 于 探索 、 
发 现 隐藏 在 数据 里 的 信息 ， 而 不 是 用 模型 来 分 类 ， 其 探索 性 更 强 。 


本 章 将 介绍 如 何 对 新 闻 语 料 进行 聚 类 , 以 发 现 其 中 的 趋势 和 主题 。 本 童 还 将 讨论 怎样 从 链接 
聚合 网 站 抽取 新 闻 语 料 。 


本 章 主 要 介绍 如 下 几 个 概念 。 


口 从 任意 新 闻 网 站 获取 文本 内 容 

口 使 用 reddit 网 站 API 采 集 有 趣 的 新 闻 报 道 

口 使 用 聚 类 分 析 进 行 无 监督 的 数据 挖掘 

口 抽取 文档 主题 

口 用 线 上 学 习 方 法 无 需 再 次 训练 即 可 更 新 模型 
口 组 合 不 同 的 模型 进行 聚 类 























10.1 获取 新 闻 文 章 


本 章 将 构建 一 个 按照 主题 为 最 新 的 新 闻 报 道 分 组 的 系统 。 你 可 以 运行 几 周 (或 更 长 时 间 ) 以 
了 解 这 段 时 间 新 闻 趋势 的 变化 。 

系统 首先 从 流行 的 链接 聚合 网 站 reddit? 寻 找 新 闻 报 道 的 链接 。reddit 存 储 了 大 量 其 他 网 站 的 链 
接 ， 还 提供 讨论 区 。 网 站 收集 的 链接 按照 类 别 进行 分 类 ， 这 些 类 别 被 统称 为 subreddit， 比 如 有 电 
































DYCombinator 孵 化 的 项 目 。 最 初 使 用 Lisp 语 言 开 发 ， 后 改 用 Python ， 网 站 开放 源 代 码 ， 可 以 从 Github 上 找到 。 创 始 
人 Steve Huffman 在 Udacity 上 开设 了 一 门 讲解 Web 开 发 的 课程 ,课程 编号 为 CS253。Steve 卖 掉 reddit 后 , 创立 了 专注 


于 旅游 搜索 的 Hipmunk 网 站 。2015 年 再 度 回 到 reddit， 出 任 CEO。web.py 的 作者 Aaron Swartz 也 是 reddit 的 联合 创始 
人 。 一 一 译 者 注 
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视 节 目 、 趣 味 图 片 等 类 别 。 本 章 关 注 的 是 新 闻 这 一 类 链接 。 本章 使 用 /=*/worldnews 类 别 的 链接 ， 
但 是 我 们 所 编写 的 代码 也 可 以 用 来 抓 取 其 他 类 别 的 语 料 。 

本 章 的 目标 是 下 载 大 家 所 关注 的 新 闻 报 道 , 对 其 进行 聚 类 分 析 , 寻找 其 中 的 主题 或 主要 概念 ， 
无 需 人 工分 析 成 百 上 干 篇 新 闻 报 道 ， 就 能 洞察 人 们 关注 的 焦点 。 





























10.1.1 使 用 Web API 获取 数据 


前 面 有 儿童 都 是 使 用 Web API 从 网 站 抽取 数据 。 例 如 ， 第 7 章 就 用 到 Twitter 网 站 的 API。 采 和 集 
数据 是 数据 挖掘 流水 线 至 关 重 要 的 一 个 环节 。Web API 是 采集 多 个 主题 数据 的 绝 佳 工 具 。 


使 用 Web API 采 集 数据 ， 有 三 个 注意 事项 : 授权 方法 、 请 求 频 率 限制 和 API 端 点 ( endpoints )。 


授权 方法 是 数据 提供 方 用 来 管理 数据 采集 方 的 。 数据 提供 方 以 此 了 解 谁 正在 采集 数据 , 确保 
采集 方 抓 取 数据 的 频率 没有 超出 上 限 , 同时 对 采集 方 都 采集 了 哪些 数据 也 做 到 心中 有 数 。 对 于 大 
多 数 网 站 , 普通 的 个 人 用 户 账号 就 能 用 来 采集 数据 , 但 也 有 部 分 网 站 要 求 采集 方 使 用 正式 的 开发 
者 账号 。 


采集 频率 限制 规定 了 采集 方 在 约定 时 间 内 的 最 大 请 求 次 数 , 尤其 是 针对 免费 提供 的 服务 。 在 
使 用 数据 获取 接口 时 ， 一 定 要 了 解 清楚 ， 不 同 的 网 站 很 可 能 有 着 不 同 的 规定 。Twitter 的 API 要 求 
每 15 分 钟 〈 视 调用 的 API 而 定 ) 之 内 最 多 请 求 180 次 数据 。reddit 规 定 每 分 钟 至 多 发 起 30 次 请 求 ， 
下 面 我 们 还 会 讲 到 。 其 他 有 些 网 站 会 限制 每 天 的 请 求 次 数 ， 当 然 也 有 限制 到 秒 级 别 的 。 即 使 同一 
个 网 站 ,不 同 的 API 调 用 ， 也 有 着 截然 不 同 的 采集 频率 限制 。 例 如 ， 谷 歌 地 图 对 每 种 资源 API 的 
调用 限制 ， 与 按 小 时 请 求 就 有 着 不 同 规定 ， 对 前 者 限制 更 为 严格 。 


















































































































































如 果 你 的 应 用 或 实验 需要 发 起 更 多 的 请 求 和 更 快 的 响应 ， 超 出 了 免费 API 所 
~> 能 提供 的 ， 你 可 以 寻求 与 API 提 供 商 进行 商业 合作 。 








API 端 点 指 的 是 用 来 抽取 信息 的 实际 网 址 。 不 同 网 站 提供 不 同 的 接口 ， 大 部 分 Web API 提 供 
RESTful 接 口 〈Representational State Transfer ， 表 述 性 状态 转移 )。、RESTful 接 口 通常 与 HTTP 协 议 
使 用 相同 的 操作 : GET、POST、DELETE 是 最 常用 的 。 例 如 ， 使 用 下 述 API 端 点 检索 某 一 资源 的 


相关 信息 : www.dataprovider.com/api/resource_type/resource id/。 


获取 信息 ， 只 需要 发 送 HTTP GET 请 求 到 指定 的 网 址 。 服 务 器 返回 资源 信息 、 信 息 类 型 和 ID。 
大 多 数 API 都 是 按照 这 种 结构 进行 封装 的 ， 虽 然 在 具体 实现 上 会 有 所 差异 。 大 多 数 提供 API 的 网 
站 ， 都 会 给 出 详细 的 文档 ， 列 出 所 有 开放 使 用 的 API 的 具体 参数 。 

我 们 来 看 下 获取 信息 的 具体 步 又。 首先 ， 设 置 连接 reddit 网 站 所 用 到 的 参数 ， 这 里 需要 用 到 
reddit 开 发 者 密 钥 。 从 https://www.reddit.conmylogin 登 录 reddit 网 站 ,打开 https://www.reddit.com/prefs/ 
apps。 点 击 “are you a developer? create an app...”， 填 写 表单 ， 选 择 script 类 型 。 你 就 能 得 到 用 
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户 ID 和 密 钥 ， 新 建 一 个 笔记 本 文件 ， 输 入 以 下 代码 。 


O 〇 


LIENT_ID = "<Enter your Client ID here>" 

CLIENT_SECRET = "<Enter your Client Secret here>" 

eddit 还 要 求 你 在 使 用 他 们 的 API 时 , 设置 唯一 的 用 户 代理 ( user agent ) 字符 串 。 在 设置 用 户 
代理 时 ， 注 意 把 自己 的 reddit 用 户 名 也 写 上 ， 以 创建 唯一 标识 你 应 用 的 用 户 代理 字符 串 。 我 的 用 
户 代 理 字 符 串 中 包含 本 书 的 英文 名 、 章 节 编 号 “chapter 10” 及 版 本 号 “0.1”， 你 可 以 使 用 其 他 内 
容 。 如 果 你 的 用 户 代 理 跟 别人 重复 ， 你 的 请 求 频率 将 受到 很 大 限制 。 








[Ey 






























































USER_AGENT = "python:<your unique user agent> (by /u/<your reddit 
username>)" 


此 外 ， 你 需要 使 用 自己 的 用 户 名 和 密码 登录 reddit。 如 果 你 还 没有 账号 ， 请 注册 一 个 〈 免费 
且 无 需 验 证 个 人 信息 )。 














下 一 步 会 用 到 你 的 密码 ,把 代码 分 享 给 别人 之 前 ,记得 删除 它 。 如 果 你 不 打 
算 在 代码 中 写 入 密码 , 把 密码 设置 为 none, 这 样 每 次 运行 时 输入 密码 即 可 ,但 是 ， 

> 你 需要 在 启动 笔记 本 文件 的 终端 输入 ,而 不 是 在 笔记 本 文件 里 输入 , 这 是 由 笔记 

本 文件 的 工作 方式 决定 的 。 如 果 你 无 法 在 终端 输入 ,请 直接 在 代码 里 设置 好 密码 。 
IPython 的 开发 人 员 正 在 编写 修复 这 个 问题 的 插件 ， 但 是 写作 本 书 时 ， 播 件 还 没 
写 好 。 


指定 用 户 名 和 密码 ， 代 码 如 下 : 


USERNAME 
PASSWORD 





"<your reddit username>" 
"<your reddit password>" 


接着 ,创建 登录 函数 ， 使 用 以 上 信息 进行 登录 。reddit 的 登录 接口 将 会 返回 进一步 连接 所 需 
要 的 令 牌 , 这 也 就 是 登录 函数 的 返回 结果 。 函 数 声明 如 下 : 











def login(username, password): 


首先 ， 如 果 你 不 想 把 密码 写 到 代码 里 ,把 它 设 置 为 none, 但 是 你 需要 在 命令 行 输入 ,前 面 已 
经 说 过 。 代 码 如 下 : 











if password is None: 
password = getpass.getpass ("Enter reddit password for user {}: 
" .format (username)) 


使 用 独一无二 的 用 户 代 理 很 重要 ， 和 否则 你 的 连接 将 严重 受 限 。 代 码 如 下 : 








headers = {"User-Agent": USER_ AGENT} 


接着 ， 创 建 HTTP 授 权 对 象 ， 以 登录 reddit 服 务 器 。 
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client auth = requests.auth.HTTPBasicAuth (CLIENT_ID, CLIENT_ 
SECRET) 


发 起 POST 请 求 到 access_token 端 点 以 实现 登录 , POST 的 数据 有 用 户 名 、 密 码 、 授 权 类 型 。 
本 例 中 授权 类 型 为 使 用 密码 进行 登录 。 








post_data = {"grant_type": "password", "username": username, 
"password": password} 


最 后 ， 函 数 使 用 requests 库 发 起 登录 请 求 (通过 HTTP POST 请 求实 现 )，POST 请 求 返 回 的 
结果 为 字典 类 型 。 其 中 有 一 项 就 是 进一步 请 求 所 需 的 令 牌 。 代 码 如 下 : 
response = requests.post ("https://ww.reddit.com/api/vil/access_ 


token", auth=client_ auth, data=post_data, headers=headers) 
return response.json() 


调用 上 述 登 录 函 数 ， 获 取 令 牌 。 
token = login (USERNAME, PASSWORD ) 


令 牌 对 象 为 一 字典 结构 ， 其 中 的 access_t oken 键 对 应 的 值 就 是 进一步 请 求 所 需 的 令 牌 。 该 
对 象 还 包含 令 牌 的 使 用 范围 (全 局 ) 和 过 期 时 间 。 例 如 : 









































{'access_token': '<semi-random string>', 'expires_in': 3600, 
De 'token type': 'bearer'} 


10.1.2 ”数据 资源 宝库 reddit 


链接 聚合 网 站 reddit ( www.reddit.com ) 拥有 几 亿 用 户 ， 虽 然 英文 版 主要 面向 美国 。 每 个 用 户 
都 可 以 发 布 他 们 感 兴趣 的 网 站 的 链接 ,同时 为 该 链接 指定 标题 。 其 他 用 户 对 其 点 装 ， 表 示 他 们 喜 
欢 这 个 链接 的 内 容 ,， 也 可 以 投 反对 票 ， 表示 不 喜欢 。 点 赞 最 高 的 链接 将 被 移 到 网 页 的 最 上 面 , 没 
有 多 少 人 喜欢 的 将 不 会 显示 。 随 着 时 间 的 推移 ， 0 电 将 不 再 显示 ( 根据 喜欢 数 来 定 )。 
分 享 的 链接 被 点 赞 后 ， 用 户 将 会 获得 叫 作 karma" 的 积分 ， 这 也 是 为 了 激励 用 户 只 分 享 好 故 如 


reddit 用 户 也 可 以 发 表 链接 之 外 的 其 他 内 容 ， 这 些 内 容 叫 作 自己 的 广播 *， 它 由 用 户 输 入 的 标 
题 和 正文 组 成 , 通常 是 为 了 提问 或 是 引发 讨论 , 不 在 积分 赚 取 范围 之 内 。 本 章 仅 关 注 链 接 类 广播 ， 
不 关注 评论 类 的 。 

网 站 的 所 有 广播 被 分 到 叫 作 subreddit 的 不 同 栏目 ， 每 个 栏目 包含 一 系列 与 之 相关 的 广播 。 用 
户 发 布 广播 时 , 需要 选择 广播 所 属 的 栏目 。 每 个 栏目 都 有 自己 的 管理 员 和 内 容 管 理 规则 ， 用 户 不 
能 发 表 与 栏目 无 关 的 内 容 。 
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Q@ karma， 指 因果 报应 。reddit 网 站 使 用 该 词 ， 应 是 取 其 善 有 善 报 之 意 。 一 一 译 者 注 
@ 广播 对 应 英文 单词 post， 指 的 是 用 户 发 表 的 一 条 内 容 。 一 一 译 者 注 
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广播 默认 根据 热度 ( Hot ) 进行 排序 ， 一 条 广播 的 热度 由 其 存在 的 时 间 、 喜 欢 数 、 不 喜欢 的 
次 数 来 决定 。 除 了 热度 外 ， 还 有 最 新 发 表 的 (New ) 和 一 定时 间 内 最 受 欢迎 的 ( Top ) 两 种 排序 
方法 ,最 新 广播 可 能 包含 大 量 的 垃圾 信息 。 本 章 将 按照 热度 来 选取 广播 ,这些 广 播 比较 新 ,内 容 
质量 也 比较 高 〈 单 纯 根 据 时 间 排 序 ， 得 到 的 链接 有 很 多 是 垃圾 链接 )。 


使 用 我 们 前 面 获 取 到 的 令 牌 ， 就 可 以 获取 一 个 栏目 的 一 系列 链接 。/r/<subredditname> 
API 端 点 默认 返回 所 指定 栏目 的 热门 文章 。 我 们 把 栏目 指定 为 世界 新 闻 /z/worldnews。 



































subreddit = "worldnews" 
我 们 使 用 字符 串 格式 化 方法 ， 用 刚 指 定 的 栏目 来 创建 完整 的 URL。 
url = "https://oauth.reddit.com/r/{}".format (subreddit) 





接 下 来 , 需要 设置 头 部 ， 这样 才能 指定 授权 令 牌 , 设置 独一无二 的 用 户 代理 , 争取 不 会 被 过 
分 限制 请 求 次 数 。 代 码 如 下 : 


headers = {"Authorization": "bearer {}".format (token['access_ token']), 
"User-Agent": USER_ AGENT} 


然后 ， 跟 之 前 一 样 ， 使 用 reauests 库 发 起 请 求 ， 别 忘 了 指定 头 部 。 














response = requests.get (url, headers=headers) 


调用 response 的 json 方 法 , 将 会 得 到 包含 reddit 返 回信 息 的 一 个 Python 字 典 。 它 包含 给 定 栏 目 
的 25 条 广播 ， 对 它们 进行 遍历 ， 输 出 每 条 广播 的 标题 。 广 播 的 相关 内 容 存 储 在 字典 键 为 data 的 那 
一 项 中 o 代码 如 下 ; 














for story in result['data']['children']: 
print (story['data']['title']) 


10.1.3 ”获取 数据 

我 们 数据 集 的 每 条 广播 都 来 自 /r/worlanews 栏 目的 热度 列表 。 上 节 讲 解 了 连接 reddit 网 站 
和 抽取 广播 内 容 的 方法 。 我们 来 创建 一 个 函数 ,把 这 两 个 步骤 整合 起 来 ,抽取 指定 栏目 每 条 广播 
的 标题 、 链 接 和 喜欢 数 。 

我 们 遍历 世界 新 闻 栏 目 ， 最 多 一 次 获取 100 篇 新 闻 报 道 。 我 们 还 可 以 使 用 分 页 ，reddit 最 多 多 
许 我 们 读 多 少 页 ， 我 们 就 读 多 少 页 。 但 是 我 们 这 里 最 多 读 5 页 。 


因为 我 们 代码 会 重复 调用 同一 个 API， 为 了 防止 超出 网 站 所 规定 的 采集 频率 限制 ， 我 们 可 以 
使 用 sleep 函 数 ， 先 来 导入 它 。 














from time import sleep 
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接 下 来 要 定义 的 这 个 函数 接收 三 个 参数 , 分别 为 栏目 名 称 、 授 权 令 牌 和 读 取 的 页 数 ， 默认 值 
为 5。 

def get_links (subreddit, token, n_ pages=5): 

创建 列表 ， 存 储 新 闻 报道 。 

stories = [] 

我 们 在 第 7 章 见 过 如 何在 Twitter 的 API 中 使 用 分 页 功能 。Twitter 在 返回 结果 时 ， 同 时 返回 一 个 
游标 ， 调 用 接口 时 ， 再 一 并 传递 游标 ，Twitter 再 利用 此 游标 获取 当前 结果 的 下 一 页 。reddit 的 API 
游标 用 法 几乎 和 Twitter 一 致 ， 只 不 过 它 使 用 after 人 参数 。 获 取 第 一 页 数据 时 用 不 到 这 个 参数 ,将 
其 置 为 none， 获 取 到 第 一 页 后 ， 再 给 它 传 一 个 有 意义 的 值 。 代 码 如 下 : 

















after = None 
裔 历 我 们 想得到 的 那些 页 。 
for page_ number in range(n pages): 


在 上 述 循环 中 ,设置 好 头 部 和 URL， 方 法 跟 之 前 一 样 。 








headers = {"Authorization": "bearer 

{}".format (token['access_token']), 
"User-Agent": USER_ AGENT} 

url = "https://oauth.reddit.com/r/{}?1imit=100". 
format (subreddit) 


从 第 二 次 循环 开始 ， 我 们 需要 设置 after 参 数 ( 否则 返回 结果 都 一 样 )。 下 一 次 循环 所 用 到 
的 after 的 值 在 前 一 次 循环 中 设置 。 如 果 after 值 不 为 none， 把 它 添加 到 URL 的 末尾 ,告诉 reddit 
我 们 接 下 来 要 获取 哪 页 的 数据 。 代 码 如 下 : 


if after: 
url += "&after={}".format (after) 


下 面 跟 之 前 一 样 ,使 用 requests 库 发 起 请 求 ， 在 返回 结果 上 调用 json () 方 法 ,得 到 Python 
字典 。 


























response = requests.get (url, headers=headers) 
result = response.json!() 


返回 结果 中 包含 下 一 轮 迭 代 所 需 的 after 值 ， 用 它 来 更 新 after 参 数 。 
after = result['data'] ['after'] 


暂停 两 秒 钟 ， 防 止 超出 API 使 用 频率 限 秆 





一色 
O 





sleep (2) 


在 循环 体 的 最 后 ， 从 reddit 的 返回 结果 中 获取 到 每 篇 报道 ， 把 它们 添加 到 stories 列 表 中 。 
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我 们 仅 需要 标题 、URL 和 喜欢 数 这 三 项 数据 。 代 码 如 下 : 


stories.extend([(story['data']['title'], story['data']['url'], 
story['data']['score']) 
for story in result['data']['children']]) 


最 后 〈 循环 体外 面 )， 返 回 找到 的 所 有 新 闻 报道 。 
return stories 

调用 get_links 函 数 时 传人 栏目 名 称 和 授权 令 牌 即 可 。 

stories = get_links("worldnews", token) 


返回 结果 包含 500 篇 新 闻 报道 的 标题 、URL 等 ， 我 们 接 下 来 就 可 以 获取 到 这 些 URL 所 指向 页 
面 的 文本 内 容 。 


10.2 ”从 任意 网 站 抽取 文本 


我 们 从 reddit 收 集 到 的 网 址 所 指向 的 网 站 分 属 不 同 的 网 站 组 织 。 这 些 网 站 的 目标 用 户 是 普 
大 众 而 不 是 计算 机 程序 。 当 我 们 尝试 用 程序 获取 里 面 的 实际 内 容 时 ,可 能 会 遇 到 种 种 困难 ， 因 为 
如 今 的 网 站 ， 有 很 多 逻辑 是 在 后 台 运 行 : 调用 JavaScript 库 ， 应 用 样式 表 ， 用 AJAX 加 载 广告 ,在 
侧 边 栏 增加 很 多 内 容 等 ， 这 些 功能 增加 了 网 站 的 复杂 程度 。 这 些 技术 的 应 用 使 得 当今 的 Web 看 起 
来 鲜 活 、 生 动 、 丰 富 多 彩 




































































10.2.1 寻找 任意 网 站 网 页 中 的 主要 内 容 


我 们 首先 需要 访问 每 个 链接 ， 下载 各 个 网 页 ,将 它们 保存 到 Data 文 件 夹 中 事先 建 好 的 用 于 存 
放 原 始 网 页 的 文件 夹 raw。 后 面 ， 我 们 就 要 从 这 些 原始 网 页 中 获取 有 用 的 信息 。 先 把 全 部 网 页 都 
保存 下 来 ， 比 起 后 面 时 不 时 地 下 载 网 页 方便 多 了 。 首 先 ， 指 定 存放 原始 网 页 的 目录 。 

import os 


data_folder = os.path.join(os.path.expanduser ("~"), "Data", 
"websites", "raw") 


后 面 我 们 要 用 MD5 散 列 算法 为 每 篇 报道 创建 一 个 唯一 的 文件 名 , 所 以 先导 入 hash1ib。 散 列 we 
函数 将 输入 ( 包含 新 闻 报 道 名 称 的 字符 串 ) 转换 为 一 个 看 上 去 像 是 随机 产生 的 字符 串 。 对 于 相同 
的 输入 , 散 列 函 数 返回 相同 的 结果 ,但 是 不 同 输入 之 间 的 微小 差别 将 会 导致 截然 不 同 的 输出 结 
并 且 ， 散 列 函数 为 单 向 函数 ， 根 据 散 列 值 无 法 得 到 原来 的 值 。 导 入 hash1ib， 代 码 如 下 : 












































import hashlib 


对 于 网 页 下 载 失 败 的 网 站 ， 我 们 直接 跳 过 。 为 了 避免 错过 太 多 网 页 ， 我 们 维护 一 个 计数 器 ， 
统计 下 载 失败 的 次 数 。 如 果 是 系统 本 身 的 问题 阻止 下 载 , 那 我 们 就 要 解决 这 些 问 题 。 如 果 失 败 次 
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数 过 多 ， 我 们 就 要 找 出 到 底 是 什么 东西 在 作怪 ， 尝 试 去 解决 问题 。 例 如 ， 如 果 计 算 机 没有 联网 ， 
所 有 的 500 次 下 载 都 会 失败 ， 你 得 先 解决 联网 问题 ， 才 能 再 开展 下 面 的 工作 ! 


如 果 所 有 网 页 都 能 成 功 下 载 ， 计 数 吕 输出 值 应 该 为 0。 





number_errors = 0 
接 下 来 ,遍历 每 一 篇 新 闻 报道 。 
for title, url, score in stories: 


对 报道 的 标题 进行 散 列 操作 ， 作 为 输出 文件 名 ， 以 保证 唯一 性 。 因 为 reddit 网 站 不 要 求 文章 标 
题 具有 唯一 性 ， 因 此 两 篇 报道 可 能 使 用 相同 的 标题 ， 这 就 会 导致 数据 集中 两 条 数据 之 间 的 冲突 。 
我 们 使 用 MD5 算 法 对 报道 的 URL 进 行 散 列 操作 。 现 在 人 们 发 现 MD5 也 不 是 绝对 可 靠 的 , 但 是 就 我 
们 这 么 小 的 数据 规模 来 说 不 太 可 能 出 问题 ( 出 现 碰撞 情况 ), 即使 出 现 这 样 的 问题 , 也 不 用 太 担心 。 









































output_filename = hashlib.md5 (url.encode()) .hexdigest() 
fullpath = os.path.join(data_ folder, output_filename + ".txt") 


接 下 来 下 载 网 页 ， 保 存 到 输出 文件 夹 中 。 


Ty 
response = requests.get (url) 
data = response.text 
with open(fullpath, 'w') as outf: 
outf.write (data) 


如 果 下 载 网 页 时 出 现 问 题 , 跳 过 问题 网 站 , 继续 下 载 下 一 个 网 站 的 网 页 。 上 述 代码 能 够 完成 
我 们 收集 到 的 95% 的 网 站 下 载 任务 ,对 本 章 的 应 用 来 说 足够 了 ， 因 为 我 们 寻找 的 是 大 体 趋势 而 不 
是 做 精准 研究 。 有 时 我 们 必须 下 载 到 所 有 网 站 的 内 容 ， 这 时 就 得 调整 代码 ， 以 处 理 各 种 可 能 的 错 
误 。 抓 取 失 败 的 5% ~ 10% 的 网 站 , 需要 编写 更 为 复杂 的 代码 才能 进行 处 理 。 我 们 来 捕获 出 现 的 错 
误 (这 可 是 因特网 ， 会 有 很 多 意 想不到 的 错误 )， 增 加 计数 需 计 数 ， 继 续 下 载 下 个 网 站 的 网 页 。 






























































except Exception as e: 
number_errors += 1 
print (e) 


如 果 错 误 很 多 ， 把 上 面 print (e) 那 一 行 改 为 raise， 调 用 异常 中 断 机 制 ， 以 便 修改 问题 。 
现在 , 我 们 原始 网 页 文件 夹 r aw 中 有 很 多 网 页 ， 查 看 这 些 网 页 ( 用 文本 编辑 器 打 开 )， 你 会 发 


现 新 闻 报道 的 内 容 潭 没 在 HTML、JavaScript、CSS 以 及 其 他 内 容 之 中 。 因 为 我 们 只 对 报道 本 身 感 
兴趣 ， 就 需要 一 种 从 不 同 网 站 的 网 页 中 抽取 内 容 的 方法 。 























10.2.2 组装 起 来 
获得 原始 网 页 后 , 我 们 需要 找 出 每 个 网 页 中 的 新 闻 报 道内 容 。 有 一 些 在 线 资 源 使 用 数据 挖掘 
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方法 来 解决 这 个 问题 ,资源 列表 请 见 附录 。 一 般 来 说 , 很 少 需要 用 到 这 些 复杂 的 算法 ， 当 然 使 用 
它们 能 得 到 更 为 精确 的 结果 。 这 也 是 数据 挖掘 艺术 的 一 部 分 一 一 知道 什么 时 候 用 ,什么 时 候 不 用 。 


首先 ， 获 取 到 raw 文 件 夹 中 的 所 有 文件 名 。 


filenames = [os.path.join(data folder, filename) 
for filename in os.listdir(data_ folder)] 


接着 ,创建 输出 文件 来 ， 新 闻 报道 内 容 抽 取出 来 后 ， 将 保存 到 该 文件 夹 下 。 


text_output_folder = os.path.join(os.path.expanduser ("~"), "Data", 
"websites", "textonly") 


接着 ,编写 从 网 页 中 抽取 文本 的 代码 。 我 们 将 使 用 1xml 包 解析 HTML 文 件 ，1xml 的 HTML 
解析 融 容 错 能 力 强 ， 可 以 处 理 不 规范 的 HTML 人 代码。 导入 语句 如 下 所 示 : 






































from lxml import etree 

文本 抽取 分 为 以 下 三 步 : 首先 , 遍历 HTML 文 件 的 每 一 个 节点 , 抽取 其 中 的 文本 内 容 。 其次， 
跳 过 JavaScript、 样 式 和 注释 节点 ,这些 节 点 不 太 可 能 包含 对 我 们 有 价值 的 信息 。 最 后 , 确保 文本 
内 容 长 度 至 少 为 100 个 字符 。 分 析 文 章 主题 ，100 个 字符 就 够 用 ,但 是 要 想得到 更 准确 的 结果 , 文 
章 长 度 有 待 增加。 


前 面 说 过 , 我 们 对 脚本 、 样 式 或 注释 不 感 兴趣 。 因 此 ,创建 列表 ,存放 这 些 不 可 能 包含 新 闻 
报道 内 容 的 节点 。 代 码 如 下 : 


skip_node types = ["script", "head", "style", etree.Comment] 


我 们 创建 一 个 函数 ， 把 HTML 文件 解析 成 1xml etree 对 象 ， 然 后 创建 男 外 一 个 函数 ， 解 析 
前 面 得 到 的 树 ， 寻 找 文本 。 第 一 个 函数 简单 易 懂 : 打开 网 页 文件 ， 用 1xml 库 的 parse 方 法 解析 
HTML 文 件 。 代 码 如 下 : 
def get_text_from file(filename): 
with open(filename) as inf: 


html_tree = lxml .html .parse (inf) 
return get_text_from node(html_tree.getroot()) 


上 述 函 数 的 最 后 一 行 , 调用 getroot () 函数 ， 获 取 到 树 的 根 节 点 ， 而 不 是 整 棵 树 etree， 这 
样 文本 抽取 函数 get_text_from_node 以 节点 作为 参数 ， 它 能 处 理 包括 根 节点 在 内 的 所 有 节点 ， 
便于 递归 调用 。 


文本 抽取 函数 将 在 任何 子 节 点 上 调用 自己 , 以 抽取 子 节 点 中 的 文本 内 容 , 最 后 返回 拼接 在 一 
起 的 所 有 子 节 点 的 文本 。 


如 果 一 个 节点 没有 任何 子 节点 , 文本 抽取 函数 返回 该 节点 的 文本 内 容 。 如 果 该 节点 不 包含 任 
何 内 容 , 就 返回 空 字符 串 。 请 注意 , 还 需要 执行 上 面 提 到 的 文本 抽取 的 第 三 步 一 一 检查 文本 长 度 
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是 否 达 到 100 个 字符 。 代 码 如 下 : 


def get_text_from node (node): 
if len(node) == 0: 
# No children, just return text from this item 
if node.text angd len(node.text) > 100: 
return node.text 
else: 
return "" 


明确 节点 有 子 节 点 之 后 , 就 对 每 一 个 子 节 点 递归 调用 文本 抽取 函数 , 把 返回 的 文本 内 容 拼 接 
在 一 起 。 代码 如 下 5 
results = (get_text_from node(child) for child in node 


if child.tag not in skip_node types) 
return "\n".join(r for r in results if len(r) > 1) 


上 面 return 语 名 中 的 if 语 句 是 为 了 防止 返回 空 行 (例如 ,有 的 节点 没有 子 节 点 和 文本 内 容 )。 
遍历 所 有 的 原始 网 页 ， 从 文件 里 抽取 文本 ,把 结果 保存 到 纯 文本 文件 " 夹 中 。 


for filename in os.listdir(data_ folder): 
text = get_text_from file(os.path.join(data_ folder, filename)) 
with open(os.path.join(text_output_folder, filename), 'w') 
as outf: 
outf.write (text) 


打开 纯 文 本 文件 夹 中 的 文件 ,查看 它们 是 否 有 内 容 。 如 有 果 很 多 都 不 包含 新 闻 报道 内 容 ， 提升 
最 少 字符 限制 ， 我 们 刚才 用 的 是 100。 如 果 设 置 为 更 高 的 值 ， 仍 不 起 作用 ,或 者 你 的 应 用 对 抽取 
文本 内 容 有 更 高 的 要 求 ， 请 尝试 使 用 附录 介绍 的 更 为 复杂 的 方法 。 


















































10.3 ”新 闻 语 料 聚 类 


本 章 的 目的 是 通过 聚 类 发 现 新 闻 语 料 中 潜藏 的 趋势 。 我 们 将 使 用 逛 生 于 1957 年 的 经 典 机 器 学 
习 算 法 k-means (均值 )。 


聚 类 属于 无 监督 学 习 , 我 们 使 用 聚 类 算法 探索 隐藏 在 数据 里 的 奥秘 。 我 们 的 数据 集 由 大 约 500 
篇 新 闻 报 道 组 成 ， 人工 查 看 这 些 文章 的 主题 费时 费力 。 即 使 使 用 概括 统计 方法 也 不 容易 ,对 这 种 
方法 而 言 数据 还 是 相当 多 。 而 聚 类 分 析 则 可 以 按照 主题 把 它们 分 成 不 同 的 复 ， 然后 就 可 以 按 簇 研 
究 它们 的 主题 。 


我 们 在 没有 明确 的 类 别 的 情况 下 会 使 用 聚 类 方法 。 从 这 个 意义 上 来 讲 , 聚 类 算法 学 习 时 没有 
明确 的 方向 性 ,它们 根据 目标 函数 而 不 是 数据 潜在 的 含义 来 学 习 。 因 此 , 选择 聚 类 效果 好 的 特征 
































GD 指 去 除 掉 网 页 代码 后 剩 下 的 文本 内 容 。 一 一 译 者 注 
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就 很 有 必要 。 对 于 有 监督 学 习 , 即使 你 选用 了 效果 较 差 的 特征 , 学 习 算 法 可 以 选择 不 用 这 些 特征 。 
例如 ,支持 向 量 机 为 对 分 类 用 处 不 大 的 特征 分 配 很 小 的 权重 。 然 而 ， 聚 类 算法 会 综合 所 有 特征 给 
出 最 后 结 即使 那些 不 会 提供 给 我 们 答案 的 特征 。 


在 对 真实 的 数据 进行 聚 类 分 析 前 ， 最 好 了 解 哪些 特征 适用 于 当前 任务 。 本 章 使 用 词 袋 模型 。 
我 们 寻找 的 是 主题 相关 的 徐 , 因此 使 用 主题 相关 的 特征 为 数据 建 模 。 我 们 之 所 以 知道 这 些 特征 可 
用 来 聚 类 ,是 因为 别人 用 有 监督 方法 解决 类 似 问 题 时 用 过 这 些 特征 。 对 比 来 说 ， 如 果 要 按照 作者 
把 作品 分 组 ， 我 们 就 要 使 用 类 似 第 9 章 用 到 的 特征 。 






























































10.3.1 k-means 算法 


krmeans 聚 类 算法 迭代 寻找 最 能 够 代表 数据 的 聚 类 质心 点 。 算 法 开始 时 使 用 从 训练 数据 中 随 
机 选取 的 几 个 数据 点 作为 质心 点 。k-means 中 的 /表示 寻找 多 少 个 质心 点 ， 同 时 也 是 算法 将 会 找到 
的 复 的 数量 。 例 如 ， 把 k 设 置 为 3， 数 据 集 所 有 数据 将 会 被 分 成 3 个 簇 。 


k-means 算 法 分 为 两 个 步 又: 为 每 一 个 数据 点 "分 配 簇 标 签 ， 更 新 各 艇 的 质心 点 。 


分 簇 这 一 步 中 ,我们 为 数据 集 的 每 个 个 体 设置 一 个 标签 ,把 它 和 最 近 的 质心 点 联系 起 来 。 对 
于 距离 质心 点 1 最 近 的 个 体 , 我 们 为 它们 分 配 标签 1， 距 离 质心 点 2 最 近 的 个 体 , 分 配 标签 2， 以 此 
类 推 。 标 签 相同 的 个 体 属于 同一 个 徐 , 所 有 带 有 标签 1 的 数据 点 属于 簇 1 ( 只 是 暂时 的 ,数据 点 所 
属 的 簇 会 随 着 算法 的 运行 发 生变 化 )。 


更 新 环 科 ,计算 各 簇 内 所 有 数据 点 的 均值 ， 更 新 质心 点 。 


k-means 算法 会 重复 上 述 两 个 步骤 ; 每 次 更 新 质心 点 时 ， 所 有 质心 点 将 会 小 范围 移动 。 这 会 
轻微 改变 每 个 数据 点 在 篮 内 的 位 置 , 从 而 引发 下 一 次 欠 代 时 质心 点 的 变动 。 这 个 过 程 会 重复 执行 
直到 条 件 不 再 满足 时 为 止 。 通常 是 在 迭代 一 定 次 数 后 , 或 者 当 质 心 点 的 整体 移动 量 很 小 时 ,就 可 
以 终止 算法 的 运行 。 有 时 可 以 等 算法 自行 终止 运行 , 这 表明 簇 已 经 相当 稳定 一 一 数据 点 所 属 的 簇 
不 再 变动 ， 质 心 点 也 不 再 改变 时 。 

下 图 表示 的 是 对 随机 创建 的 数据 集 执 行 k-means 算 法 ,数据 集 包含 三 个 徐 。 图 中 的 三 颗 五 角 
星 表示 最 初 随机 从 数据 集中 选取 的 三 个 质心 点 。 k-means 算法 经 过 5 轮 办 代 后 , 质心 点 发 生 了 改变 ， 
有 具体 位 置 用 三 角形 来 表示 。 


































































































g 一 个 数据 点 对 应 数据 集中 一 条 数据 ， 把 数据 集 看 成 样本 ， 一 条 数据 即 可 被 称 作 是 一 个 个 体 。 一 一 译 者 注 
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k-means 算法 因 它 所 使 用 的 数学 方法 和 久 经 考验 而 充满 手 力 。 该 算法 只 有 (大体 上 可 以 这 么 
说 ) 一 个 参数 , 虽然 距 它 提出 至 今 已 过 了 半 个 多 世纪 , 但 由 于 它 在 很 多 数据 挖 气 问 题 上 效果 很 好 ， 
仍 被 频繁 使 用 。 


scikit-learn 实 现 了 k-means 算法 ， 直 接 从 cluster 模 块 导入 即 可 。 














from sklearn.cluster import KMeans 


我 们 顺便 把 countvectorizer 类 的 好 兄弟 Tfidfvectorizer 导 进来 ,这 个 向 量化 工具 根据 
词语 出 现在 多 少 篇 文档 中 , 对 词语 计数 进行 加 权 。 出 现在 较 多 文档 中 的 词语 权重 较 低 ( 用 文档 集 
数量 除 以 词语 出 现在 的 文档 的 数量 ,然后 取 对 数 ) 。 对 于 很 多 文本 挖掘 应 用 ,使 用 该 种 权重 计算 
方法 ， 能 够 有 效 提 升 效果 。 代 码 如 下 : 

from sklearn.feature extraction.text import TfidfVectorizer 

创建 数据 分 析 流 水 线 ， 流 水 线 分 两 步 ， 第 一 步 是 特征 抽取 ， 第 二 步 是 调用 k-means 算法 。 代 
人 码 如 下 : 


from sklearn.pipeline import Pipeline 

n_clusters = 10 

pipeline = Pipeline([('feature extraction', TfidfVectorizer (max_ 
QE=04)); 














('clusterer', KMeans(n_clusters=n_clusters)) 


]3 
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我 们 为 参数 max_daf 设 置 了 一 个 很 低 的 值 0.4， 表 示 忽 略 出 现在 40% 及 以 上 的 文档 中 的 词语 。 
这 个 参数 可 用 来 剔除 本 身 不 含有 主题 相关 含义 的 词语 。 





Kag 删除 在 40% 及 以 上 文档 中 出 现 的 词语 将 会 删除 功能 词 ， 这 种 预 处 理 对 于 第 9 
章 将 有 害 无 益 。 





首先 训练 算法 ， 然 后 再 用 它 来 做 预测 。 前 几 章 的 分 类 任务 都 是 按照 这 两 个 步骤 实施 , 但 是 这 
里 有 一 点 不 同一 一 我 们 没有 为 fit 函 数 指定 目标 类 别 。 这 也 正 是 无 监督 学 习 任务 的 含义 所 在 ! 代 
码 如 下 : 





pipeline.fit (documents) 
labels = pipeline.predict (documents) 


变量 labels 包 含 每 个 数据 点 的 簇 标签 。 标 签 相同 的 数据 点 属于 同一 个 艇 。 需 要 指出 的 是 簇 
标签 本 身 没 有 含义 : 不 能 说 复 1 和 复 2 比 簇 1 和 簇 3 更 相似 。 


我 们 可 以 使 用 counter 类 来 查看 每 个 锻 有 多 少数 据点 。 


from collections import Counter 
C = Counter(labels) 
for cluster_ number in range(n clusters): 
print ("Cluster {} contains {} samples".format (cluster_number, 
clcluster_number])) 


聚 类 问题 的 结果 ( 注意 你 的 数据 集 可 能 跟 我 的 不 同 ) 往 往 是 一 个 簇 很 大 , 包含 了 大 多 数 个 体 ， 
再 有 几 个 中 等 规模 的 簇 ， 最 后 还 有 儿 个 只 包含 一 两 个 个 体 的 很 小 的 艇 ,这 种 不 平衡 性 很 常见 。 
























































10.3.2 ”评估 结果 


聚 类 分 析 主 要 是 探索 性 分 析 , 因此 很 难 有 效 地 评估 取 类 算法 结果 的 好 坏 。 评 估算 法 结果 最 直 
接 的 方式 是 根据 它 要 学 习 的 标准 对 其 进行 评价 。 


























KW 如 果 你 有 测试 集 ， 你 可 以 对 其 进行 聚 类 分 析 来 评价 效果 。 更 多 细节 请 见 
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html。 








对 于 k-means 算法 ,寻找 新 质心 点 的 标准 是 ， 最 小 化 每 个 数据 点 到 最 近 质 心 点 的 距离 。 这 叫 
作 算法 的 惯性 权重 〈inertia )， 任 何 经 过 训练 的 KMeans 实 例 都 有 该 属性 。 


pipeline.named_steps['clusterer'].inertia_ 


输出 结果 为 343.94， 不 过 这 个 值 本 身 没 有 意义 , 但 是 可 以 用 它 来 确定 分 为 多 少 徐 合 适 。 前 面 
的 例子 , n_clusters 的 值 被 设置 为 10, 但 这 是 最 佳 值 吗 ? 下 面 代 码 n_clusters 依 次 取 2 到 20 之 
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间 的 值 ， 每 取 一 个 值 ，k-means 算 法 运行 10 次 。 每 次 运行 算法 都 记录 惯性 权重 。 





对 于 n_clusters 变 量 的 每 个 取 值 ， 仅 训练 X 和 矩阵 一 次 ， 以 ( 极 大 ) 提升 代码 运行 速度 。 





inertia_scores = [] 
n_cluster values = list(range(2, 20)) 
for n_clusters in n cluster values: 
cur_inertia_scores = [] 
xX = TfidfVectorizer (max_df=0.4) .fit_ transform(documents) 
for i in range(10): 
km = KMeans (n_clusters=n_ clusters) .fit (Xx) 
cur_inertia_ scores.append (km.inertia ) 
inertia_ scores.append(cur_inertia_ scores) 


变量 inertia_scores 存 储 了 n_clusters 取 2 到 20 每 个 值 时 所 对 应 的 惯性 权重 。 我 们 把 惯 
生 权重 和 簇 的 数量 做 成 图 ， 以 便 了 解 它们 之 间 的 关系 。 


= 








Hi 


整体 而 言 ， 随 着 簇 数 量 的 增加 ,质心 点 和 其 他 数据 点 位 置 的 调整 逐渐 减少 , 惯性 权重 应 该 逐 
渐 隆 低 ， 这 是 很 容易 就 能 从 上 图 得 到 的 结论 。 从 6 簇 进一步 分 为 7 徐 时 ,质心 点 是 随机 选取 的 ,这 
将 会 直接 影响 到 最 终结 果 。 尽 管 如 此 ， 整 体 的 趋势 ( 你 的 结果 可 能 会 有 所 不 同 ) 是 复数 量 为 6 时 ， 
惯性 权重 进行 了 最 后 一 次 大 的 调整 。 





























随后 惯性 权重 改变 很 小 , 虽然 没有 明确 的 标准 可 言 。 这 样 的 时 刻 被 称 作 是 抛 点 ( elbow ), 用 
图 来 表示 就 是 曲线 的 顶点, 看 起 来 就 像 是 肘 部 。 有 些 数 据 集 拐点 很 明显 , 但 是 有 的 数据 集 可 能 没 
有 拐点 (它们 的 图 像 看 起 来 很 平滑 )。 


根据 上 述 分 析 ， 把 n_clusters 的 值 设置 为 6， 重 新 运行 算法 。 




















nclusters = 6 
pipeline = Pipeline([('feature extraction', 
TfidfVectorizer (max_df=0.4)), 
('clusterer', KMeans(n_ clusters=n_clusters)) 
] ) 
pipeline.fit (documents) 
labels = pipeline.predict (documents) 
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10.3.3 


从 簇 中 抽取 主题 信息 


现在 我 们 把 关注 点 放 到 各 得 上 ,尝试 从 中 找到 每 个 复 的 主题 。 首 先 ， 从 特征 提取 这 一 步 抽取 


词 表 。 


terms = pipeline.named steps['feature extraction'] .get_feature names() 


计算 每 簇 所 包含 的 个 体 数 量 。 


Cs TE 


Counter (labels) 


遍历 所 有 的 簇 , 输出 每 簇 所 包含 的 个 体 数量 。 评 佑 结果 时 ,要 把 簇 的 大 小 考虑 进去 一 一 有 的 
簇 可 能 只 有 一 个 个 体 ， 因 此 不 能 代表 新 闻 趋势 。 代 码 如 下 : 


EOF 


Cluster_number in range(n_ clusters): 
print ("Cluster {} contains {} samples".format (cluster_number, 


clcluster_number])) 


接 下 来 (在 循环 体内 部 ), 遍历 该 艇 最 重要 的 词语 。 首先 ， 从 质心 点 找 出 特征 值 最 大 的 5 个 特 
征 。 代 码 如 下 : 











print(" Most important terms") 
centroid = pipeline.named_ steps['clusterer'] .cluster_ centers_ 


[cluster_number] 


most_important = centroid.argsort() 


依次 输出 这 5 个 特征 。 


for i in range(5) : 


对 i 取 反 ， 因 为 most_important 数 组 中 的 最 小 值 排 在 最 前 面 。 


term index = most_important[-(i+1)] 


然后 输出 序号 、 词 语 和 得 分 。 


BPELTt CC" {0}) {1} (score: {2:.4f})".format (i+1, terms[term_ 


index], centroid[term index])) 


结果 能 较 好 地 反映 当时 人 们 关注 的 焦点 。 我 得 到 的 结果 ( 2015 年 3 月 ) 中 ， 几 个 簇 的 主题 为 











健康 问题 .中 东 紧张 局 势 . 朝 鲜 半 岛 紧张 局 势 和 俄罗斯 相关 问题 .这 些 充斥 着 当时 的 新 闻 头 条 _ po 

















虽然 很 多 年 以 来 就 一 直 这 样 ! 


10.3.4 





用 聚 类 算法 做 转换 器 

















另外 提 一 下 ，k-means 算 法 〈 以 及 其 他 聚 类 算法 ) 还 有 比较 有 趣 的 一 个 特点 ， 就 是 可 以 用 来 





简化 特 生 
语义 索引 


E。 特 征 简化 的 方法 有 很 多 种 ， 比 如 主要 成 分 分 析 (Principle Component Analysis )、 潜 在 
| (Latent Semantic Indexing ) 等 ， 这 些 方法 还 能 用 来 创建 新 特征 ， 但 是 它们 通常 对 计算 
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能 力 要 求 很 高 。 
在 前 面 的 例子 中 ， 词 表 共 有 14 000 个 词 条 一 一 这 个 数据 集 很 大 。 我 们 的 聚 类 算法 把 它们 仅 归 
为 6 个 复 。 我 们 可 以 使 用 数据 点 到 质心 点 的 距离 作为 特征 创建 一 个 特征 数 较 之 前 少 得 多 的 数据 集 。 
在 k-means 实 例 上 调用 转换 函数 。 因 为 流水 线 最 后 一 步 是 k-means 实 例 ， 因 此 可 以 在 它 上 面 
调用 转换 函数 。 








Wl 











xX = pipeline.transform(documents) 


上 面 代码 在 流水 线 最 后 一 步 的 k-means 实例 上 调用 转换 方法 。 得 到 的 矩阵 有 六 个 特征 , 数据 
量 跟 文档 的 长 度 相同 。 

你 可 以 对 得 到 的 矩阵 进行 二 次 聚 类 ,如 果 有 目标 类 别 的 话 ， 也 可 以 用 来 分 类 。 大 致 的 流程 是 
使 用 标注 好 的 数据 选取 特征 , 用 聚 类 方法 把 特征 数 减 少 到 更 容易 操作 的 范围 内 , 再 用 SVM 等 算法 
对 前 面 处 理 过 的 数据 集 进行 分 类 。 






































10.4” 聚 类 融合 


第 3 章 研 究 了 如 何 把 几 棵 效果 相对 较 差 的 决策 树 分 类 噩 整合 在 一 起 形成 随机 和 森林， 用 来 处 理 
分 类 任务 。 育 类 算法 也 可 以 进行 融合 ,这 样 做 的 主要 原因 是 ,融合 后 得 到 的 算法 能 够 平滑 算法 多 
次 运行 所 得 到 的 不 同 结果 。 正 如 我 们 之 前 所 说 ， 多 次 运行 k-means 算法 得 到 的 结果 因 最 初 选 择 的 
质心 点 不 同 而 不 同 。 多 次 运行 算法 ,综合 考虑 所 得 到 的 多 个 结果 ， 可 以 减少 波动 。 


聚 类 融合 方法 还 可 以 降低 参数 选择 对 最 终结 果 的 影响 。 大 多 数 聚 类 算法 对 参数 选择 很 敏感 ， 
参数 稍 有 不 同 将 带 来 不 同 的 聚 类 结 

















10.4.1 证 据 累积 


最 基本 的 融合 方法 是 对 数据 进行 多 次 聚 类 , 每 次 都 记录 各 个 数据 点 的 篮 标 签 。 然 后 计算 每 两 
个 数据 点 被 分 到 同一 个 篮 的 次 数 。 这 就 是 证 据 累 积 算 法 (Evidence Accumulation Clustering, EAC ) 
的 精髓 。 


证 据 累积 算法 两 大 步骤 如 下 : 第 一 步 ， 使 用 k-means 等 低 水 平 的 聚 类 算法 对 数据 集 进 行 多 次 
限 类 ,记录 每 一 次 迭代 两 个 数据 点 出 现在 同一 簇 的 频率 ,将 结果 保存 到 共 协 矩阵 ( coassociation ) 
中 。 第 二 步 ， 使 用 另外 一 种 聚 类 算法 一 一 分 级 聚 类 对 第 一 步 得 到 的 共 协 矩阵 进行 聚 类 分 析 。 分 
级 聚 类 一 个 比较 有 趣 的 特性 是 ， 它 等 价 于 寻找 一 棵 把 所 有 节点 连接 到 一 起 的 树 ， 并 把 权重 低 的 
边 去 掉 。 


遍历 所 有 标签 , 记录 具有 相同 标签 的 两 个 数据 点 的 位 置 , 创建 共 协 矩阵 。 我 们 需要 用 到 SciPy 










































































的 稀 琉 和 矩阵 csr_matrix。 
from scipy.sparse import csr_matrix 
注意 函数 声明 中 的 参数 为 所 有 数据 点 的 标签 。 
def create_ coassociation matrix(labels): 


记录 具有 相同 标签 的 两 个 数据 点 的 行 号 和 列 号 ， 把 它们 分 别 存储 到 rows 和 cols 列 表 中 。 稀 
玻 矩 阵 通常 由 一 系列 记录 非 零 值 位 置 的 列表 组 成 ，csr_matrix 就 是 这 种 类 型 的 。 





[] 
[] 


标签 去 重 后 ， 再 进行 遍历 。 


rows 
eke 























unique_ labels = set (labels) 
for label in unique_ labels: 


查找 具有 某 一 标签 的 所 有 数据 点 。 
indices = np.where(labels == label) [0] 


对 于 每 组 标签 相同 的 数据 点 ， 记 录 它 们 的 位 置 。 代 码 如 下 : 





for indexl in indices: 
for index2 in indices: 
rows.append (index1) 
cols.append (index2) 


在 所 有 循环 的 外 面 创建 数据 集 ， 两 个 数据 点 标签 相同 时 ， 数 据 集中 该 位 置 的 值 为 1。 有 多 少 
组 数据 点 标签 相同 ， 数 据 集中 就 有 多 少 个 元 素 为 1。 代 码 如 下 : 











data = np.ones( (len (rows),)) 
return csr_ matrix((data, (rows, cols)), dtype='float') 


调用 上 述 函 数 ， 传 人 所 有 的 数据 点 标签 ， 就 能 得 到 共 协 矩阵 。 

C = create_ coassociation matrix(labels) 

现在 我 们 可 以 把 这 些 矩 阵 的 多 个 实例 整合 起 来 多 次 运行 k-means 算法 ,把 结果 结合 起 来 看 。 
运行 C( 在 记事 本 新 格子 里 输入 C， 并 运行 )， 查 看 有 多 少 个 非 霉 值 。 从 得 到 的 结果 来 看 ， 和 矩阵 中 
大 约 半数 的 项 有 值 ， 我 的 聚 类 结果 有 一 个 大 的 簇 ( 各 簇 的 大 小 越 均 名， 非 零 值 数量 越 少 )。 


下 一 步 对 共 协 矩阵 进行 分 级 聚 类 。 我 们 需要 找到 该 矩阵 的 最 小 生成 树 , 删除 权重 低 于 阔 值 的 


边 。 














从 图 的 理论 角度 看 , 生成 树 为 所 有 节点 都 连接 到 一 起 的 图 。 最 小 生成 树 ( Minimum Spanning 
Tree，MST ) 即 总 权重 最 低 的 生成 树 。 结 合 我 们 的 应 用 来 讲 ， 图 中 的 节点 对 应 数据 集中 的 个 体 ， 
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边 的 权重 对 应 两 个 顶点 被 分 到 同一 复 的 次 数 一 一 也 就 是 共 协 矩阵 所 记录 的 值 。 

















下 图 的 MST 有 6 个 节点 。 图 中 的 节点 可 以 在 MST 中 多 次 使 用 ， 唯 一 的 要 求 是 所 有 的 节点 应 该 
连接 在 一 起 。 

















我 们 使 用 SciPy sparse 包 的 minimum_spanning_tree 国 数 计算 MST。 
from scipy.sparse.csgraph import minimum spanning tree 


可 以 直接 在 coassociation 函 数 返 回 的 稀 玖 矩阵 上 调用 mst 函 数 。 





mst = minimum spanning_tree(C) 


然而 ， 和 矩阵 c 中 ， 值 越 高 表示 一 组 数据 点 被 分 到 同一 徐 的 次 数 越 多 一 一 这 个 值 表示 相似 度 。 
相反 ,minimum_spanning_ tree 函数 的 输入 为 距离 ， 高 的 值 反 而 表示 相似 度 越 小 。 因 此 ,我 们 
对 c 取 反 再 计算 最 小 生成 树 。 








mst = minimum_spanning tree(-C) 


上 述 函 数 返回 结果 为 一 个 和 矩阵, 大 小 跟 c 相 同 ( 行列 数 分 别 跟 数 据 集 样 本 数量 和 特征 数 相 同 )， 
只 不 过 保留 了 最 小 生成 树 中 的 边 ， 其 他 都 被 删除 了 。 


然后 我 们 删除 其 边 的 权重 小 于 阔 值 的 节点 。 方 法 是 , 遍历 MST 和 矩阵 中 的 每 一 条 边 ， 删 除 低 于 
规定 值 的 边 。 仅 对 共 协 矩阵 〈 值 为 1 或 0， 没 有 什么 可 处 理 的 ) 进行 一 次 遍历 无 法 完成 上 述 任务 。 
因此 ， 我 们 来 创建 额外 的 标签 ， 创 建 一 个 新 共 协 矩阵 ， 然 后 把 这 两 个 矩阵 相 加 。 代 码 如 下 : 


























pipeline.fit (documents) 

labels2 = pipeline.predict (documents) 

C2 = create_ coassociation matrix(labels2) 
ES EC SF ZR) 





然后 再 计算 MST， 删 除 在 这 两 个 矩阵 中 都 没有 出 现 的 边 。 


mst = minimum spanning tree(-C_sumy) 
mst.dqata[mst.qata > -1] = 0 


我 们 需要 移 除 在 C1 和 C2 都 没有 出 现 的 边 一 一 也 就 是 值 为 1 的 。 然 而 我 们 刚才 在 计算 时 ， 对 
C_sum 取 反 ， 因 此 ， 阔 值 也 应 该 使 用 相反 数 。 


最 后 ， 我 们 找到 所 有 的 连通 分 支 ， 也 就 是 寻找 移 除 低 权重 的 边 以 后 仍然 连接 在 一 起 的 节点 。 
返回 的 第 一 个 值 为 连通 分 支 的 数量 ( 也 就 是 有 和 多少 个 簇 )， 第 二 个 值 为 每 个 数据 点 的 标签 。 代 码 
如 下 : 


from scipy.sparse.csgraph import connected_ components 
number_of_clusters, labels = connected_ components (mst) 


我 的 数据 集 最 终 找到 了 8 个 复 ， 每 个 篮 都 跟 之 前 差不多 。 这 不 足 为 奇 ， 因 为 我 们 仅 进 行 了 两 
轮 k-means 迭代 ， 更 多 的 迭代 (请 见 下 节 ) 结果 差异 会 更 明显 。 






































10.4.2 ”工作 原理 


k-means 算法 不 考虑 特征 的 权重 ,实际 上 它 假定 所 有 的 特征 取 值 范围 相同 。 我们 在 第 2 章 探讨 
过 使 用 取 值 范 围 不 同 的 特征 所 带 来 的 问题 。k-means 算 法 寻找 的 是 圆 形 复 (circular clusters )， 如 
下 图 所 示 。 


























从 上 图 中 ,我 们 可 以 看 到 不 是 所 有 的 篮 都 是 圆 形 。 左 侧 的 篮 呈 圆 形 ， 这 也 是 k-means 算 法 很 
擅长 处 理 的 。 中 间 为 椭圆 形 ， 通 过 特征 规范 化 (feature scaling )，k-means 算 法 可 以 处 理 该 种 聚 类 
问题 。 最 后 一 幅 图 甚至 不 是 凸 形 的 一 一 这 种 形状 很 奇怪 ， 用 k-means 算 法 来 处 理 聚 类 结果 为 这 种 
形状 的 数据 集 有 难度 。 

证 据 累 积 算法 的 工作 原理 为 重新 把 特征 映射 到 新 空间 ， 上 节 讲 到 用 k-means 来 做 特征 简化 ， 
本 质 上 ， 证据 累 积 算法 使 用 与 其 相似 的 原则 ， 每 次 运行 k-means 算法 都 相当 于 使 用 转换 器 对 特征 
进行 一 次 转换 。 但 是 我 们 这 里 仅 使 用 实际 的 标签 而 不 是 到 每 个 质心 点 的 距离 。 我 们 使 用 存储 在 共 
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协和 矩阵 中 的 数据 。 

证 据 累积 算法 只 关心 数据 点 之 间 的 距离 而 不 是 它们 在 原来 特征 空间 的 位 置 。 对 于 没有 规范 化 
过 的 特征 ， 仍 然 存在 问题 。 因 此 ， 特 征 规范 很 重要 ， 无 论 如 何 都 要 做 (我们 用 ef-iaf 规 范 特征 
值 ， 从 而 使 特征 具有 相同 的 值 域 ) 。 

我 们 在 第 9 章 见 过 使 用 SVM 内 核 做 类 似 的 转换 。 这 些 转换 方法 很 强大 ， 在 处 理 复杂 数据 集 
记得 使 用 。 
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10.4.3 ”实现 














现在 我 们 来 把 前 面 这 些 整 合 起 来 ， 创 建 接口 跟 scikit-learn 对 得 上 的 简易 聚 类 算法 ， 实 现 
证 据 累 积 的 两 个 步骤 。 首 先 ， 使 用 scikit-learn 的 clusterMixin 创 建 证 据 累积 算法 类 。 


from sklearn.base import BaseEstimator, ClusterMixin 
class EAC (BaseEstimator, ClusterMixin): 


参数 分 别 为 第 一 步 k-means 算 法 运行 次 数 ( 创建 共 协 矩阵 )， 用 来 删除 边 的 阔 值 和 每 次 运行 
k-means 算法 要 找到 的 艇 的 数量 。 指 定 n_clusters 的 取 值 范围 ， 每 次 运行 k-means 算法 都 能 得 到 
不 同 的 聚 类 结果 。 一 般 而 言 ， 从 融合 的 角度 看 ， 每 次 结果 有 所 不 同 是 件 好 事 。 和 否则 ， 融 合 多 次 算 
法 跟 只 运行 一 次 算法 效果 相同 ( 但 是 几 个 聚 类 结果 之 间 差 距 较 大 也 不 能 表明 融合 后 效果 就 会 好 )。 
代码 如 下 : 




































































def __init_ _(self, n clusterings=10, cut_threshold=0.5, n_ 
clusters_range=(3, 10)): 
self.n clusterings = n_clusterings 
self.cut_threshold = cut_threshold 
self.n clusters_ range = n clusters_range 


为 EAC 类 定义 fit 函 数 。 
def fit(self, XxX, y=None): 
接着 ， 使 用 k-means 算 法 进行 低 水 平 聚 类 ， 把 每 一 次 迁 代 得 到 的 共 协 矩阵 加 起 来 。 为 了 节省 
内 存 ， 我 们 使 用 生成 器 ， 仅 在 需要 时 创建 共 协 和 矩阵。 生成 器 每 迭代 一 次 ， 就 在 数据 集 上 跑 一 个 
新 的 k-means 实例 ， 然 后 创建 一 个 共 协 矩阵 。 再 使 用 sum 方 法 把 得 到 的 多 个 共 协 矩阵 加 起 来 。 代 
人 码 如 下 : 























C= sum((create coassociation matrix(self._ single 
clustering (xX)) 
for i in range(self.n clusterings))) 


跟前 面 一 样 ， 我 们 创建 MST， 删 除 低 于 阔 值 的 边 ( 注意 使 用 相反 数 )， 找 到 连通 分 支 。 跟 
scikit-learn 其 他 fit 函 数 一 样 ， 我 们 都 需要 返回 self， 以 便 流 水 线 的 下 一 个 步骤 使 用 。 代 码 
如 下 : 
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mst = minimum_spanning tree(-C) 

mst.data[lmst.data > -self.cut_threshold] = 0 
self.n_components, self.labels_ = connected components (mst) 
return self 


接着 ,编写 通过 一 轮 迭 代 进 行 聚 类 的 函数 。 具 体 方法 是 , 使 用 numpy 的 rangdint 函 数 随机 选 
取 几 个 复 ， 用 参数 n_clusters_range 指 定 随 机 选取 的 范围 。 然 后 使 用 kmeans 算 法 进行 聚 类 和 
预测 数据 集 属于 哪个 复 。 最 后 返回 由 k-means 计 算得 到 的 复 标 签 。 代 码 如 下 : 











def _single_clustering(selLf， 广 ) : 
n_clusters = np.random.randint (*self.n clusters_range) 
km = KMeans (n_clusters=n_ clusters) 
return km.fit_ predict (x) 


像 之 前 那样 创建 流水 线 , 只 不 过 在 流水 线 最 后 一 步 , 使 用 证 据 累 积 算法 而 不 是 之 前 的 k-means 
算法 实例 ， 运 行 代码 。 代 码 如 下 。 


pipeline = Pipeline([('feature extraction', TfidfVectorizer (max_ 
df=0.4)), 








('clusterer', EAC()) 
]) 


10.5 线 上 学 习 


有 了 时， 在 开始 学 习 之 前 ,我 们 没有 足够 的 数据 用 来 进行 训练 。 有 了 时， 数据 量 太 大 ， 内 存 装 不 
下 , 或 一 时 拿 不 到 数据 ,或 完成 预测 后 ,我 们 又 拿 到 了 新 数据 。 以 上 情况 就 可 以 使 用 线 上 学 习 方 
法 ， 在 需要 时 及 时 训练 模型 。 








10.5.1 线 上 学 习 简 介 


线 上 学 习 是 指 用 新 数据 增 量 地 改进 模型 。 支持 线 上 学 习 的 算法 可 以 先 用 一 条 或 少量 数据 进行 
训练 ， 随 着 更 多 新 数据 的 添加 ， 更 新 模型 。 相 比 之 下 ,不 支持 线 上 学 习 的 算法 在 开始 训练 之 前 需 
要 一 次 性 拿 到 所 有 数据 。 标 准 的 k-means 算 法 以 及 前 几 章 的 绝 大 部 分 算法 都 不 支持 线 上 学 习 。 


线 上 学 习 算 法 在 只 有 几 条 新 数据 的 情况 下 就 能 做 到 部 分 更 新 已 有 模型 。 神 经 网 络 算 法 是 支持 
线 上 学 习 的 标准 例子 。 随 着 一 条 新 数据 输入 到 神经 网 络 后 , 网 络 中 的 权重 根据 学 习 速 率 进行 更 新 ， 
学 习 速率 通常 为 一 个 很 小 的 值 ， 比 如 0.01。 这 表明 一 条 新 数据 只 能 对 模型 带 来 很 小 的 变动 (希望 
是 改进 )。 


神经 网 络 还 可 以 按照 批 模式 来 训练 , 每 次 只 用 一 组 数据 进行 训练 。 批 模式 , 算法 运行 速度 快 ， 
但 是 耗 内 存 较 多 。 


同 理 ， 我们 可 以 用 一 个 数据 点 或 少量 数据 点 来 轻微 更 新 k-means 中 的 质心 点 。 具 体 做 法 是 ， 
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在 k-means 算法 更 新 质心 点 这 一 步 加 入 学 习 速 率 。 我 们 假定 这 些 新 数据 点 是 从 总 体 中 随机 选取 的 ， 
质心 点 应 该 朝 它 们 在 原来 标准 、 离 线 的 k-means 算法 中 的 位 置 移动 。 

线 上 学 习 与 流 式 学 习 (streaming-based learning ) 有 关 , 但 有 几 个 重要 的 不 同 点 。 线 上 学 习 能 
够 重新 评估 先前 创建 模型 时 所 用 到 的 数据 ， 而 对 于 后 者 ， 所 有 数据 都 只 使 用 一 次 。 











10.5.2 ”实现 


scikit-learn 提 供 了 MiniBatchKMeans 算 法 ， 可 以 用 它 来 实现 线 上 学 习 功 能 。 这 个 类 实 
现 了 partial_fit 限 数 , 接收 一 组 数据 , 更 新 模型 。 相反 , 调用 fit () 将 会 删除 之 前 的 训练 结 
重新 根据 新 数据 进行 训练 。 

因为 MiniBatchKMeans 聚 类 过 程 跟 scikit-learn 中 其 他 聚 类 算法 一 致 ， 所 以 创建 和 使 用 
方法 跟 其 他 算法 相同 。 

因此 ， 我 们 可 以 使 用 rfTIDFVectorizer 从 数据 集中 抽取 特征 ， 创 建 矩 阵 X。 代 码 如 下 : 


vec = TfidfVectorizer (max_df=0.4) 
xX = vec.fit_ transform(documents) 


再 来 导入 MiniBatchKMeans ， 初 始 化 一 个 实例 。 




















from sklearn.cluster import MiniBatchKMeans 
mbkm = MiniBatchKMeans (random_ state=14, n_clusters=3) 


接着 ， 随 机 从 X 和 矩阵 中 选择 数据 ， 模 拟 来 自 外 部 的 新 数据 。 每 次 取 一 些 数 据 ， 更 新 模型 。 


batch size = 10 

for iteration in range(int (Xx.shape[0] / batch size)): 
start = batch size * iteration 
end = batch_ size * (iteration + 1) 
mbkm.partial_fit (x[start:end]) 


在 实例 上 调用 preqdict () 方 法 ， 获 得 原始 数据 集 的 聚 类 结果 。 

labels = mbkm.predict (x) 

然而 目前 阶段 ， 我 们 无 法 在 流水 线 中 使 用 TfIDFVectorizer， 因 为 它 不 是 在 线 算法 。 为 了 
解决 这 个 问题 ， 我 们 使 用 HashingvVectorizer 类 , 它 巧 妙 地 使 用 散 列 算法 极 大 地 降低 了 计算 词 
袋 模 型 所 需 的 内 存 开 销 。 我们 不 是 记录 特征 名 字 ， 比 如 文档 中 的 词 , 而 是 仅 记录 这 些 名 字 的 散 列 
值 。 这 样 ， 在 我 们 查看 数据 集 之 前 ， 就 能 知道 所 有 的 特征 ， 因 为 我 们 已 经 拿 到 了 所 有 特征 的 散 列 
值 。 大 约 有 2" 个 散 列 值 , 数据 量 很 大 , 但 是 使 用 稀 玻 矩阵 ,存储 和 计算 都 很 容易 ， 因 为 矩阵 中 很 
多 项 的 值 都 为 0。 


写作 本 书 时 ，sickit-learn 的 Pipeline 类 无 法 用 于 线 上 学 习 。 不 同 的 应 用 有 着 细微 差别 ， 










































































10.5 线 上 学 习 183 




















这 也 就 表明 不 存在 万 全 之 策 ， 也 就 无 法 封装 一 个 通用 的 流水 线 类 。 相 反 , 我 们 可 以 创建 自己 的 能 
够 支持 线 上 学 习 的 流水 线 子 类 。 我 们 这 个 类 继承 自 scikit-learn 的 Pipeline 类 。 








class PartialFitPipeline (Pipeline): 





创建 partial_fit 函 数 ， 接 收 输入 和 矩 了 泗 、 可 选 的 类 别 ( 这 里 用 不 到 ) 。 





def partial_fit(self, Xx, y=None): 
我 们 之 前 讲 过 , 流水 线 由 一 系列 转换 步骤 组 成， 前 一 步 的 输出 为 下 一 步 的 输入 。 我 们 把 第 
个 输入 设置 为 X 矩 阵 ， 接 着 ， 用 每 一 个 转换 器 对 输入 进行 转换 。 


区 已 三 六 
for name, transform in self.steps[:-1]: 

















然后 ， 转 换 已 有 的 数据 集 ， 继 续 迭 代 ， 直 到 达到 最 后 一 步 〈 我 们 这 里 为 从 类 算法 )。 








Xt = transform.transform(Xt) 


接着 ， 在 最 后 一 步调 用 partial_fit 消 数 ， 返 回 结 果 


信 o 





return self.steps{[-1] [1] .partial_fit (xt, y=y) 


我 们 现在 就 可 以 创建 流水 线 ， 在线 上 学 习 过 程 使 用 MiniBatchkMeans 和 Hashing-— 
Vectorizer。 除 了 新 类 PartialFitpipeline 和 HashingVectorizer 外 ， 使 用 线 上 学 习 进 行 


聚 类 分 析 ， 其 整个 过 程 跟 本 章 其 他 部 分 大 同 小 异 ， 只 不 过 每 次 使 用 的 数据 量 少 多 了 。 














pipeline = PartialFitPipeline([('feature extraction', 
HashingVectorizer()), 


('clusterer', MiniBatchKMeans (random_ 
state=14, n_clusters=3)) 


]) 
batch size = 10 


for iteration in range(int (len(documents) / batch size)): 
start, =. bateh. sizZe * "iteération 
end = batch size * (iteration + 1) 
pipeline.partial_fit (documents[start:end]) 

labels = pipeline.predict (documents) 


当然 这 种 方法 也 有 不 足 之 处 。 比 如 ,我们 很 难 知道 对 于 每 个 簇 来 说 哪些 词 最 为 重要 。 如 果 想 
知道 的 话 ， 这 就 要 用 到 男 外 一 种 特征 抽取 工具 countVectorizer， 先 取 到 每 个 词 的 散 列 值 ， 然 
后 通过 散 列 值 而 不 是 词 本 身 查找 词 的 重要 性 。 这 样 做 有 点 麻烦 ， 并 且 抵 消 了 我 们 使 用 
HashingVectorizer 节 省 下 来 的 内 存 。 并 且 , 我 们 也 无 法 使 用 之 前 用 过 的 max_af 参 数 , 因为 它 
需要 知道 特征 是 什么 并 一 直 统 计 它 们 。 









































此 外 ， 我 们 无 法 在 线 上 学 习 中 使 用 tf£-igqf 权 重 。 虽 然 我 们 可 以 估计 并 使 用 权重 ,但 是 也 很 
有 麻烦。HashingVectorizer 算 法 非常 有 用 ， 是 散 列 算法 的 精彩 应 用 。 
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10.6 小结 


本 章 研 究 了 一 种 无 监督 学 习 方法 一 一 聚 类 。 无 监督 学 习 用 来 探索 数据 而 不 是 分 类 或 预测 。 我 
们 从 reddit 网 站 采集 到 的 数据 没有 类 别 ， 所 以 无 法 对 其 进行 分 类 。 我 们 使 用 k-means 算 法 把 新 闻 报 
道 分 成 组 ， 以 找到 数据 中 隐藏 的 主题 和 趋势 。 


从 reddit 网 站 采集 网 址 数据 后 ， 我 们 发 现 它 们 指向 不 同 的 网 站 ， 因 此 ， 需 要 研制 一 种 适用 范 
围 广 的 网 页 内 容 抽 取 方 法 。 抽取 数 据 时 , 我 们 只 寻找 大 块 的 文本 ,而 没有 使 用 成 熟 的 机 咒 学 习 方 
法 。 有 一 些 有 趣 的 机 带 学 习 方 法 可 以 改善 文本 抽取 效果 ,， 详 见 附录 部 分 本 章 的 补充 内 容 。 我 在 附 
录 中 , 针对 每 一 章 都 给 出 了 后 续 学 习 方向 及 实验 效果 改善 方法 ， 还 给 出 了 参考 资料 ,并 介绍 了 读 
者 可 能 感 兴趣 的 难度 更 大 的 应 用 。 


本 章 还 探讨 了 一 种 很 直观 的 融合 算法 一 一 证 据 累积 算法 。 融 合算 法 可 用 来 处 理 结果 之 间 的 差 
异 ， 尤其 是 你 不 知道 怎么 选取 好 的 参数 时 ( 参数 选取 对 于 聚 类 来 说 就 特别 难 ) 。 

最 后 ,我们 介绍 了 线 上 学 习 。 这 是 通 向 包括 大 数据 在 内 的 大 型 机 天 学习 算法 的 人 口 ， 接 下 来 
两 章 会 讲 大 数据 。 后 两 章 的 实验 规模 很 大 ， 在 学 习 模 型 的 同时 ， 还 要 求学 会 管理 数据 。 

下 一 童 将 从 无 监督 学 习 再 度 回 到 分 类 。 我 们 将 研究 以 复杂 神经 网 络 为 基础 的 分 类 方法 一 一 次 


度 学 习 。 
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用 次 度 池 习 方法 为 图 像 中 的 
物体 进行 分 类 








第 8 章 用 到 了 最 基础 的 神经 网 络 。 最 近 几 年 ， 该 领域 兴起 的 研究 热潮 为 其 带 来 了 一 系列 长 足 
的 进步 。 如 今 , 神经 网 络 的 研究 创造 出 了 一 些 最 为 先进 和 精确 的 分 类 算法 , 在 很 多 领域 展露 锋芒 。 


计算 机 性 能 的 提升 使 得 训练 更 大 、 更 复杂 的 神经 网 络 成 为 可 能 , 但 该 领域 之 所 以 能 够 取得 进 
步 ， 主 要 不 是 因为 计算 性 能 的 提升 ， 而 是 因为 采用 了 新 的 算法 和 神经 网 络 层 。 


本 章 研 究 如 何 确定 图 像 中 的 物体 , 我 们 使 用 像素 值 作为 神经 网 络 的 输入 值 ,自动 找到 有 用 的 
像素 组 合 ， 形 成 更 高 层级 的 特征 ， 然 后 将 其 用 于 实际 的 分 类 。 本 章 主要 内 容 如 下 : 


口 为 图 像 中 物体 分 类 

口 不 同类 型 的 深度 神经 网 络 

口 Theano、Lasagne 和 Nolearn: 用 于 创建 和 训练 神经 网 络 的 库 
口 用 GPU 提升 算法 速度 



































11.1 物体 分 类 


计算 机 视觉 逐渐 成 为 科技 领域 的 明日 之 星 。 未 来 五 年 ,我 们 也 许 就 能 坐 上 自动 驾驶 汽车 (其 
至 可 能 比 这 还 要 提前 ， 如果 流传 的 消息 是 可 信 的 ) 要 让 计算 机 来 开车 , 它 得 能 看 清 周 围 的 环境 : 
障碍 物 、 其 他 车 辆 和 天 气 状况 等 。 


虽然 计算 机 借助 雷达 等 技术 很 容易 就 能 检测 到 是 否 有 障碍 物 , 但 这 还 不 够 , 它 还 需要 知道 障 
但 物 是 什么 。 假 如 是 动物 ， 它 们 可 能 很 快 就 会 跑 开 ,但 如 果 是 建筑 物 ， 那 就 麻烦 了 ， 计 算 机 需要 


控制 车 辆 躲 开 。 是 时 
11.2 ”应 用 场景 和 目标 
本 章 将 构建 一 个 系统 ， 它 接收 图 像 ， 给 出 图 像 里 面 是 什么 物体 。 该 系统 就 好 比 是 自动 驾驶 汽 




































































用 深度 学 习 方 法 为 图 像 中 的 物体 进行 分 类 
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车 的 视觉 系统 ， 它 能 发 现 道路 及 两 侧 的 任何 障碍 物 。 我 们 使 用 如 下 形式 的 图 像 。 
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图 像 数据 来 自 于 著名 的 CIFAR-10 数 据 集 ， 它 含有 6 万 张 32 像 素 见方 的 图 像 ， 每 个 像素 都 有 一 
个 红 - 绿 - 蓝 (RGB ) 值 。 这 个 数据 集 已 经 分 为 训练 集 和 测试 集 两 部 分 ,我 们 在 训练 结束 后 才 会 用 
到 测试 集 ， 这 里 先 提 一 下 。 








CIFAR-10 数 据 集 的 下 载 地 址 为 http:/www.cs.toronto.edu/~kriz/cifar。 请 下 载 
一 Python 版 本 ， 所 有 图 像 已 经 转换 为 numpy 数 组 。 


我 们 来 看 下 这 些 图 像 数 据 长 什么 样 ， 打 开 一 个 IPython Notebook 笔 记 本 文件 ， 设 置 好 文件 名 。 
我 们 开始 只 用 第 一 批文 件 ， 到 后 面 再 增加 数量 使 用 全 部 数据 集 。 








import os 

data_folder = os.path.join(os.path.expanduser ("~"), "Data", "cifar-10- 
batches-py") 

batchl_filename = os.path.join(data_folder, "data batch 1") 


接着 , 创建 一 个 函数 ， 读 取 第 一 批 图 像 文 件数 据 。 这 些 图 像 数 据 文件 格式 为 pickle，pickle 是 
Python 用 来 保存 对 象 的 一 个 库 。 通 常 在 pickle 文 件 上 调用 pickle. 1oad 方 法 就 能 取得 保存 在 里 面 
的 数据 。 但 这 里 有 个 小 问题 : 这 些 pickle 文 件 是 Python 2 生成 的 ， 而 我 们 要 用 Python3 打 开 。 所 以 
在 打开 时 需要 把 编码 设置 成 latin ( 虽然 我 们 是 以 字 节 模式 打开 )。 
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import pickle 
# Bigfix thanks to: http://stackoverflow.com/questions/11305790/ 
pickle-incompatability-of-numpy-arrays-between-python-2-and-3 
def unpickle (filename): 
with open(filename, 'rb') as fo: 
return pickle.load(fo, encoding='latinl') 


使 用 上 述 函 数 加 载 数据 集 。 

batchl = unpickle(batch1_ filename) 

这 一 批 图 像 文件 读 进来 后 为 一 个 字典 结构 ， 包 含 numpy 数 组 形式 的 图 像 数 据 、 图 像 类 别 、 文 
件 名 以 及 该 批文 件 的 简短 说 明 ( 例如，training batch 1 of 5 表示 训练 集 共 五 批 ， 这 是 第 一 批 )。 

以 data 作 为 键 ， 从 字典 batchl 中 取 到 存储 这 一 批 图 像 数 据 的 列表 后 ， 再 用 图 像 索 引号 就 能 
到 其 中 一 张 图 像 的 数据 。 


image_index = 100 
image = batchil['data'] [image_index] 


每 一 张 图 像 数据 为 一 个 humpy 数 组 ,数组 共有 3072 项 ， 每 一 项 为 0 到 255 之 间 的 一 个 值 。 每 个 
值 代表 图 像 某 一 位 置 的 红 、 绿 或 蓝 色 的 颜色 强度 。 

图 像 数 据 格式 与 matplotlib ( 绘制 图 像 ) 所 使 用 的 有 所 不 同 ， 因此， 用 它 来 显示 图 像 前 ,需要 
改变 数组 的 形状 ， 对 和 矩阵 进行 转换 。 这 种 数据 格式 不 会 影响 神经 网 络 训练 (我 们 定义 网 络 时 会 考 
虑 支持 这 种 数据 格式 )， 但 是 要 用 matplotlib 绘 制图 像 ， 就 需要 对 数据 格式 进行 转换 。 











image = image.reshape((32,32, 3), order='F') 
import numpy as np 
image = np.rot90 (image, -1) 


然后 ， 就 可 以 用 matplotlib 绘 制图 像 。 
smatplotlib inline 


from matplotlib import pyplot as plt 
plt.imshow (image) 


这 是 张 轮船 图 像 。 
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图 像 分 辩 率 很 低 
能 让 计算 机 辨认 出 来 吗 ? 


你 可 以 修改 图 像 索 引 查 看 其 他 图 像 ， 了 解 下 数据 集 的 特点 。 
本 章 项 目的 目标 是 创建 分 类 系统 ， 预 测 像 上 面 这 样 的 图 像 的 类 别 。 


只 有 32 像 素 见方 。 尽 管 如 此 , 大 部 分 人 还 是 能 看 出 图 中 是 一 稻 船 。 我 们 

















使 用 场景 
计算 机 视觉 技术 应 用 范围 很 广 。 


在 线 地 图 网 站 ， 比 如 谷歌 地 图 就 使 用 计算 机 视觉 技术 ， 自 动 为 街景 中 的 人 脸 添 加 模糊 效果 ， 
以 保护 被 拍摄 到 的 人 们 的 隐私 。 除 此 之 外 ， 还 有 别 的 用 途 。 


人 脸 识别 技术 在 很 多 行业 都 有 所 应 用 。 如 今 , 照相 机 都 能 自动 识别 人 脸 , 以 提升 拍摄 质量 ( 拍 
照 时 用 户 往 往 把 相机 聚焦 到 脸 部 ) 人 脸 识 别 技术 还 可 以 用 来 识别 照片 中 的 人 脸 。Facebook 就 使 
用 了 这 项 技术 ,方便 用 户 标记 朋友 。 


我 们 前 面 也 说 过 ， 自 动 驾 驶 汽车 高 度 依赖 计算 机 视觉 来 识别 道路 , 躲避 障碍 物 。 计算 机 视觉 
是 很 多 行业 、 应 用 都 在 努力 解决 的 一 个 问题 , 不 只 是 为 了 研制 自动 驾驶 汽车 , 也 不 只 是 为 了 满足 
消费 者 的 需求 ， 采 矿业 等 行业 也 在 寻求 攻克 计算 机 视觉 技术 难关 之 路 。 

除 此 之 外 , 其 他 行业 也 在 使 用 计算 机 视觉 技术 ,比如 仓储 业 自动 检测 不 合格 产品 就 用 到 该 项 
技术 。 

航天 工业 使 用 计算 机 视觉 技术 实现 数据 采集 的 自动 化 。 这 对 于 有 效 使 用 航天 器 来 说 至 关 重 
要 ， 因 为 从 地 球 上 发 送信 号 到 火星 上 的 探测 车 要 花费 很 长 时 间 ， 有 时 还 会 无 法 送 达 ( 例如， 地 球 
和 火星 不 是 面对面 时 ) 人 们 跟 太 空 探 测 器 打交道 越 来 越 多 ,而 从 遥远 的 地 球 控制 它们 很 不 方便 ， 
增加 这 些 设 备 的 自主 性 就 显得 很 有 必要 。 


下 图 为 美国 国家 航空 和 航天 局 (NASA ) 设计 的 火星 车 ， 它 大 量 应 用 了 计算 机 视觉 技术 。 
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11.3 ”深度 神经 网 络 


从 理论 角度 看 ， 第 8 章 所 使 用 的 神经 网 络 有 几 个 显著 的 特点 。 例 如 ， 只 需要 一 层 隐 含 层 来 学 
习 任 何 类 型 的 映射 (虽然 隐 含 层 可 能 规模 很 大 )。 神 经 网 络 在 20 世 纪 七 八 十 年 代 很 火 ， 但 随后 人 
们 不 再 使 用 它们 ， 尤 其 是 跟 支 持 向 量 机 等 其 他 分 类 算法 相 比 ， 神 经 网 络 被 冷落 了 。 首 要 问题 是 ， 
运行 多 个 神经 网 络 比 其 他 算法 对 计算 能 力 有 更 高 的 要 求 ， 超 出 了 当时 计算 机 的 能 力 范围 。 


其 次 是 训练 神经 网 络 所 需 工 作 量 很 大 。 虽然 那 时 反 向 传播 算法 已 经 研制 出 来 , 处 理 大 型 神经 
网 络 仍 存在 问题 ， 需 要 大 量 的 训练 才能 确定 权重 。 


这 两 个 问题 在 近 些 年 都 得 到 了 解决 , 神经 网 络 迎 来 了 又 一 个 春天 。 计算 能 力 比 起 30 年 前 更 容 
易 获 得 ， 训 练 算法 的 改进 使 得 在 现 有 计算 能 力 的 情况 下 ， 能 够 顺利 完成 大 型 神经 网 络 的 训练 。 






















































































11.3.1 ”直观 感受 


深度 神经 网 络 和 第 8 章 中 的 基本 神经 网 络 的 差别 在 于 规模 大 小 。 至 少 包含 两 层 隐 含 层 的 神经 
网 络 被 称 为 深度 神经 网 络 。 实际 工作 中 遇 到 的 深度 神经 网 络 通常 规模 很 大 , 每 层 神经 元 数量 和 层 
次 都 非常 多 。2000 年 年 中 的 一 些 研究 ,关注 的 是 层次 数量 多 的 深度 神经 网 络 ， 而 更 巧妙 的 算法 能 
够 减少 实际 所 需要 的 层 数 。 


神经 网 络 接收 很 基础 的 特征 作为 输入 一 一 就 计算 机 视觉 而 言 ， 输 入 为 简单 的 像素 值 。 神经 
网 络 算法 把 这 些 数据 整合 起 来 向 网 络 中 传输 , 在 这 个 过 程 中 , 基本 的 特征 组 合成 复杂 的 特征 。 有 
时 , 这些 组 合 特 征 对 我 们 来 说 没有 什么 含义 , 但 是 它们 表示 个 体 某 些 方面 的 特征 ,计算机 依靠 它 
们 进行 分 类 。 






































11.3.2 ”实现 


由 于 深度 神经 网 络 规模 很 大 ， 实 现 起 来 很 有 挑战 。 实 现 不 好 ， 运 行 时 间 会 很 长 ,其 至 还 会 出 
现 由 于 内 存 不 足 ， 最 后 无 法 运行 的 情况 。 


神经 网 络 的 基本 实现 可 以 从 创建 神经 元 类 开始 , 多 个 神经 元 组 成 层 类 , 每 一 层 的 神经 元 使 用 
边 这 个 类 的 一 个 实例 连接 到 另 一 层 神经 元 。 这 种 基于 类 的 实现 ， 有 助 于 显示 网 络 的 工作 方式 , 但 
是 对 于 创建 大 型 网 络 ， 效 率 较 低 。 


神经 网 络 的 核心 其 实 就 是 一 系列 矩阵 和 运算。 两 个 网 络 之 间 连 接 的 权重 可 以 用 矩阵 来 表示 , 其 
中 行 表示 第 一 层 的 神经 元 ， 列 表示 第 二 层 神经 元 (有 时 会 用 到 该 矩阵 的 转 置 矩 阵 )。 和 矩阵 的 每 一 
个 元 素 表 示 位 于 不 同 层 的 两 个 神经 元 之 间 连 接 的 权重 。 一 个 神经 网 络 就 可 以 用 一 组 这 样 的 矩阵 来 
表示 。 除 了 神经 元 外 ,每 层 增加 一 个 偏 置 项 ， 它 是 一 个 特殊 的 神经 元 ,永远 处 于 激活 状态 , 并 且 
跟 下 一 层 的 每 一 个 神经 元 都 有 连接 。 
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对 神经 网 络 有 了 上 述 这 般 深入 理解 ,我们 就 可 以 使 用 数学 运算 创建 、 训练 和 使 用 神经 网 络 ， 
比 起 前 面 用 类 来 实现 , 效率 要 更 高 。 就 矩阵 运算 而 言 ， 有 很 多 非常 好 用 的 库 ， 其 代码 经 过 充分 优 
化 ， 借 助 它 们 可 以 高 效 完成 矩阵 运算 。 


第 8 章 使 用 的 PyBrain 还 实现 了 神经 网 络 的 卷 积 层 。 但 是 我 们 这 里 要 用 到 的 一 些 功能 ， 它 没 
有 提供 。 对 于 规模 更 大 ， 定 制 化 程度 更 高 的 神经 网 络 ， 我 们 需要 更 强大 的 库 。 因 此 ， 我 们 选用 
Lasagne 和 nolearn 了 两 个 库 。 这 两 个 库 依 赖 于 擅长 处 理 数 学 表达 式 的 rheano 库 。 


本 章 首先 通过 用 Lasagne 实 现 一 个 基础 的 神经 网 络 , 来 介绍 相关 概念 。 然 后 ,使 用 nolearn 
库 重 新 做 第 8 章 中 的 字母 识别 实验 。 最 后 ， 使 用 更 为 复杂 的 卷 积 神经 网 络 对 CIFAR 数 据 集 进行 图 
像 分 类 ， 为 了 提升 性 能 我 们 使 用 GPU 而 不 是 CPU 运行 算法 。 


















































11.3.3 ”mheano 简介 


Theano 是 用 来 创建 和 运行 数学 表达 式 的 工具 。 它 用 起 来 乍 一 看 跟 编写 程序 没有 差别 ， 但 是 
在 Theano 中 ， Oe TT 是 怎么 做 ,这样 Theano 就 能 以 最 佳 的 方式 对 表达 式 进 
行 求 值 ， 还 可 以 进行 延 达 式 求 值 ， 而 不 是 定义 时 。 


多 数 程序 员 不 会 每 天 都 使 用 这 种 类 型 的 编程 范式 , 但 是 他 们 几乎 天 天 接触 使 用 这 种 编程 范式 
的 系统 。 关 系 型 数据 库 ， 尤 其 是 SQL 类 ， 就 用 到 了 叫 作 声明 型 范式 (declarative paradigm ) 的 概 
念 。 比 如 程序 员 定 义 了 含有 wHERE 子 句 的 SELECT 查询 语句 。 数 据 库 解释 查询 语句 ， 并 根据 一 系 
列 因 素 创 建 优化 过 的 查询 语句 ， 数 据 库 要 考虑 的 因素 有 wHERE 子 句 是 否 建立 在 主键 之 上 、 数 据 存 
储 格式 等 。 程 序 员 决 定 他 们 要 什么 ， 系 统 决定 怎么 做 。 


| 全 你 可 以 使 用 bip 安 装 Theano: pip3 install Theano。 ] 


我 们 可 以 用 Theano 来 定义 函数 ,处 理 标 量 ( scalars )、 数 组 和 和 矩阵 及 其 他 数学 表达 式 。 例 如 ， 
我 们 可 以 创建 计算 直角 三 角形 斜 边 长 度 的 函数 。 


import theano 
from theano import tensor as T 


首先 ， 定义 两 个 输入 a 和 bb， 它们 为 简单 的 数值 类 型 ， 因 此 使 用 标量 。 


a = T.dscalar() 
Sedsoalar ty 


















































































































































接着 ,定义 输 出 c， 它 为 由 a 和 b 构 成 的 一 个 表达 式 。 
i 


注意 ， 上 述 c 既 不 是 函数 ， 也 不 是 一 个 数值 一 一 它 是 由 a 和 b 组 成 的 表达 式 。a 和 b 不 是 一 个 确 
切 的 值 一 一 这 是 一 个 代数 式 ， 最 终结 果 不 确定 。 为 了 计算 这 个 表达 式 ， 我 们 来 定义 一 个 函数 。 
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f = theano.function([a,b], c) 


上 述 语句 告诉 rheano 创 建 一 个 函数 ， 这 个 函数 接收 a、b， 返 回 经 过 计算 得 到 的 结果 ， 也 就 
是 输出 值 c。 例 如 ，f(3，4) ， 返 回 $。 

虽然 上 述 例 子 看 起 来 可 能 不 比 Python 普 通 函 数 强大 多 少 , 但 是 我 们 现在 就 在 代码 其 他 部 分 和 
后 面 的 映射 关系 中 使 用 我 们 的 函数 或 数学 表达 式 c<。 此 外 ， 虽 然 我 们 在 创建 函数 之 前 ， 就 定义 了 
表达 式 ， 其 实 直到 调用 函数 时 ， 才 会 对 表达 式 进 行 计算 。 



























































11.3.4 Lasagne 简介 


Theano 库 不 是 用 来 创建 神经 网 络 的 , 就 好 比 numpy 库 不 是 用 来 执行 机 器 学 习 任务 的 ,而 是 被 
别 的 库 使 用 , 来 出 卖 苦力 的 。Lasagne 库 是 专门 用 来 构建 神经 网 络 的 ， 它 使 用 rheano 进 行 计算 。 


Lasagne 实 现 了 几 种 比较 新 的 神经 网 络 层 和 组 成 这 些 层 的 模块 ， 具 体 介绍 如 下 。 


口 内 置 网 络 层 ( Network-in-network layers ) : 这 些小 神经 网 络 比 传统 的 神经 网 络 层 更 容易 












































解释 。 
口 删除 层 (Dropout layers ): 训练 过 程 随 机 删除 神经 元 ， 防 止 产生 神经 网 络 常 见 的 过 拟 合 
问题 。 




















口 噪音 层 (Noise layers ): 为 神经 元 引入 噪音 ， 也 是 为 了 解决 过 拟 合 问题 。 


本 章 使 用 卷 积 层 ( convolution layers ， 层 级 结构 模拟 人 类 视觉 工作 原理 )。 卷 积 层 使 用 少量 相 
互 连 接 的 神经 元 ， 分 析 一 部 分 输入 值 〈( 比如 我 们 这 里 的 一 张 图 像 )， 便 于 神经 网 络 实现 对 数据 的 
标准 转换 ， 比 如 对 图 像 数据 的 转换 。 视 觉 分 析 实 验 ， 就 是 用 卷 积 层 对 图 像 进行 转换 ?。 
比较 而 言 , 传统 的 神经 网 络 内 部 连接 十 分 紧密 一 一 一 层 的 所 有 神经 元 全 都 连接 到 下 一 层 所 有 
经 元 。 
























































全 





lasagne.layers.ConvlDLayer 和 lasagne.layers.Conv2DLayer classes 两 个 类 实 


现 了 卷 积 网 络 。 


写作 本 书 时 ，Lasagne 还 没有 正式 版 ， 资 源 没 有 上 传 到 bip 站 点 ， 因 此 无 法 
用 pip 安 装 。 但 是 可 以 从 github 安 装 。 把 Lasagne 代 码 仓 库 克 隆 到 本 地 新 建 的 
文件 夹 中 : git clone https://github.com/Lasagne/Lasagne.git。 进 

入 到 Lasagne 文 件 夹 ， 使 用 下 面 命 令 安装 : 


sudo python3 setup.py install 


安装 指南 请 见 http://lasagne.readthedocs.org/en/latest/user/installation.html。 





Qa 原文 为 translating the image。 一 一 译 者 注 
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经 网 络 使 用 卷 积 层 ( 一 般 而 言 ， 仅 卷 积 神经 网 络 包含 该 层 ) 和 池 化 层 ( pooling layer )， 池 
化 层 接收 基 个 区 域 最 大 输出 值 ， 可 以 降低 图 像 中 的 微小 变动 带 来 的 噪音 ， 减 少 (down-sample， 
降 采样 ) 信息 量 ， 这 样 后 续 各 层 所 需 工作 量 也 会 相应 减少 。 











Lasagne 还 实现 了 池 化 层 一 一 比如 lasagne.layers.MaxPool2DLayer 类 。 再 加 上 前 面 的 
卷 积 层 ， 现 在 我 们 准备 好 了 创建 卷 积 神经 网 络 所 需 的 全 部 部 件 。 


在 Lasagne 中 创建 神经 网 络 比 起 只 用 Theano 更 加 容易 。 我 们 通过 实现 一 个 简单 的 卷 积 神经 
网 络 , 介绍 相关 规则 。 我 们 再 次 使 用 第 1 章 所 用 到 的 Iris 数据 集 , 该 数据 集 很 适合 用 来 测试 新 算法 ， 
即使 是 复杂 的 深度 神经 网 络 也 没 问题 。 


首先 ， 打 开 一 个 新 的 笔记 本 文件 。 前 面 加 载 CIFAR 数 据 集 所 使 用 的 笔记 本 文件 ， 先 搁 一 边 ， 
后 面 还 会 用 。 


加 载 Iris 数 据 集 。 


from sklearn.datasets import load_ iris 
LPiS. SS LOad TS 人) 

xX = iris.data.astype (np.float32) 
y_true = iris.target.astype (np.int32) 


Lasagne 对 数据 类 型 有 特殊 要 求 ， 因 此 ， 需 要 把 类 别 值 转换 为 int32 类 型 ( 在 原始 数据 集中 
用 int64 类 型 存储 ) 。 


把 数据 集 分 为 训练 集 和 测试 集 两 部 分 。 
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from sklearn.cross_validation import train test_ split 
XxX train, Xx test, y_train, y_test = train test_split (XxX, y_true, random_ 
state=14) 


接着 , 分 别 创建 卷 积 神经 网 络 各 层 。 我 们 的 数据 集 有 四 个 特征 、 三 个 类 别 , 这样 第 一 层 和 最 
后 一 层 神经 元 数量 就 确定 了 , 但 是 中 间 层 多 大 呢 ? 中 间 层 大 小 不 同 , 最 终结 果 也 会 不 同 ,尝试 使 
用 不 同 的 值 ， 看 看 结果 会 有 怎样 的 变化 。 


首先 , 创建 输入 层 ， 其 神经 元 数量 跟 数 据 集 特征 数量 相同 。 可 以 指定 每 一 批 输入 的 数量 ( 设 
置 为 10 )， 这 样 Lasagne 可 以 在 训练 阶段 做 些 优化 。 





















































import lasagne 
input_layer = lasagne.layers.InputLayer (shape=(10, Xx.shape[1])) 


接着 ,创建 隐 含 层 。 该 层 从 输入 层 接收 输入 由 第 一 个 参数 指定 )， 该 层 共有 12 个 神经 元 ， 
使 用 非 线性 的 sigmoia 函 数 ， 我 们 在 第 8 章 曾 经 介绍 过 。 


hidden_ layer = lasagne.layers.DenseLayer (input_layer, num units=12, 
nonlinearity=lasagne.nonlinearities.sigmoid) 


11.3 ”深度 神经 网 络 193 


























接 下 来 ,创建 输出 层 ， 它 接收 来 自 隐 合 层 的 输入 ,输出 层 共 有 三 个 神经 元 ( 跟 类 别 的 数量 一 
致 ), 使 用 非 线性 的 softmax 丽 数 ， 该 函数 主要 用 于 神经 网 络 的 最 后 一 层 。 

















output_layer = lasagne.layers.DenseLayer (hidden layer, num units=3, 
nonlinearity=lasagne. 
nonlinearities.softmax) 


依照 Lasagne 的 习惯 用 法 ， 输 出 层 为 我 们 的 神经 网 络 。 当 我 们 输入 一 条 数据 到 神经 网 络 时 ， 
它 查 看 输出 层 ， 向 上 回 淹 找 到 向 输出 层 提 供 输入 的 那 一 层 〈 第 一 个 参数 )。 这 个 过 程 重 复 进 行 直 
到 到 达 输 入 层 ， 因 为 输入 层 没有 上 一 层 , 所 以 就 把 要 处 理 的 数据 交 给 输入 层 处 理 。 输 入 层 的 激活 
函数 把 接收 到 的 数据 处 理 后 输出 给 调用 它 的 层 〈 我 们 这 里 是 隐 含 层 )， 然 后 再 一 步 步 在 网 络 中 传 
播 直 到 输出 层 。 


为 了 训练 刚 创建 的 网 络 ， 我 们 需要 定义 几 个 Theano 训 练 函 数 。 在 这 之 前 ， 需 要 定义 一 个 
Theano 表 达 式 和 函数 。 我 们 先 来 为 神经 网 络 的 输入 数据 、 输 出 结果 和 实际 输出 结果 声明 变量 。 








import theano.tensor as T 

net_input = T.matrix('net_input') 

net_output = output_layer.get_output (net_input) 
true_output = T.ivector('true_output') 


接着 , 定义 损失 函数 ,训练 函数 如 何 提升 网 络 效果 需要 参考 它 的 返回 值 一 一 训练 神经 网 络 时 ， 
以 最 小 化 损失 函数 的 返回 值 为 前 提 。 我 们 用 类 别 交 叉 (categorical cross entropy ) 表示 损失 ， 这 
是 一 种 衡量 分 类 数据 ( categorical data ) 分 类 效果 好 坏 的 标准 。 损 失 函 数 表示 的 是 网 络 的 期 望 输 
出 和 实际 输出 两 者 之 间 的 差距 。 


loss = T.mean(T.nnet.categorical_crossentropy (net_output, 
true_output)) 


接着 , 定义 修改 网 络 权重 的 函数 。 我 们 需要 获取 到 网 络 的 所 有 参数 , 创建 调整 权重 的 函数 ( 使 
用 Lasagne 提 供 的 工具 )， 使 得 损失 降 到 最 小 。 





all_params = lasagne.layers.get_all params (output_layer) 
updates = lasagne.updates.sgd(loss, all params, learning rate=0.1) 


最 后 ,创建 两 个 Theano 函 数 ， 先 是 训练 网 络 ， 然 后 获取 网 络 的 输出 ， 以 用 于 后 续 测试 。 


import theano 

train = theano.function([net_input, true output], loss, 
updates=updates) 

get_output = theano.function([net_input], net_output) 


然后 调用 训练 函数 ， 在 训练 集 上 进行 一 轮 迭 代 ， 接 收 训练 数据 ， 预 测 类 别 ， 与 给 定 类 别 作 比 
较 ， 更 新 特征 权重 ,以 最 小 化 损失 。 然 后 再 进行 1000 次 迭代 ， 逐 渐 改 进 神经 网 络 。 





for n in range(1000): 
train(X train, y_train) 
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接着 ， 对 输出 计算 F 值 ， 以 评估 分 类 效果 。 首 先 获取 到 所 有 输出 。 


y_output = get_output (xX_test) 


注意 ，get_output 为 heano 函 数 ， 是 我 们 从 神经 网 络 中 获取 到 的 ， 因 此 ， 
Se 上 述 代 码 不 用 再 把 神经 网 络 作 为 参数 传 进去 。 


























y_output 为 输出 层 每 个 神经 元 的 激励 作用 ( activation ) 大 小 。 找 出 激励 作用 最 高 的 神经 元 ， 
就 能 得 到 预测 结果 。 


import numpy as np 
y_pred = np.argmax(y_output, axis=1) 


数组 y_preg 为 预测 结果 数组 ， 跟 我 们 在 前 面 分 类 任务 中 用 到 的 相同 。 然 后 ,我们 就 可 以 计 
算 F1 值 。 


from sklearn.metrics import f1_score 
print (f1_score(y_test, y_pred)) 


结果 异常 完美 一 一 1.0! 这 表明 我 们 的 算法 为 测试 集中 所 有 数据 正确 分 类 ， 这 个 结果 太 棒 了 
(虽然 数据 集 有 点 小 )。 


从 上 面 我 们 可 以 看 到 ， 仪 用 Lasagne 库 也 能 创建 、 训 练 一 个 神经 网 络 , 但 是 有 点 麻烦 。 我 们 
可 以 使 用 nolearn 库 , 对 上 述 过 程 做 进一步 封装 , 使 它 很 容易 就 能 与 scikit-learn 接 口 对 得 上 。 
































11.3.5 用 nolearn 实现 神经 网 络 

nolearn 对 Lasagne 进 行 了 封装 , 虽然 比 起 用 Lasagne 创 建 神经 网 络 , 使 用 nolearn 无 法 对 
一 些 细节 进行 调整 ， 但 是 代码 可 读 性 更 强 ， 也 更 容易 管理 。 

nolearn 实 现 了 几 种 常见 的 复杂 程度 很 高 的 神经 网 络 ， 应 该 能 够 满足 你 的 需求 。 如 果 你 想 拥 
有 更 多 的 控制 权 ， 可 以 回头 继续 使 用 Lasagne， 但 是 创建 和 训练 过 程 需要 你 多 花 点 心思 。 

为 了 快速 了 解 aolearn， 我 们 再 次 来 实现 第 8 章 中 识别 图 像 中 字母 的 实验 。 我 们 重建 在 第 8 
章 所 创建 的 密集 神经 网 络 ( dense neural network )。 再 次 在 笔记 本 文件 输入 创建 数据 集 的 代码 。 这 
些 代 码 的 具体 含义 ， 请 参考 第 8 章 。 















































import numpy as np 

from PIL import Image, ImageDraw, ImageFont 

from skimage.transform import resize 

from skimage import transform as tf 

from skimage.measure import label, regionprops 

from sklearn.utils import check_random state 

from sklearn.preprocessing import OneHotEncoder 

from sklearn.cross_validation import train test_ split 
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def create captcha (text, shear=0, size=(100, 24)): 
im = Image.new("L", size, "black") 
draw = ImageDraw.Draw (im) 
font = ImageFont.truetypel(r"Coval.otf", 22) 
draw.text ((2, 2), text, fill=1, font=font) 
image = np.array (im) 
affine_ tf = tf.AffineTransform(shear=shear) 
image = tf.warp(image, affine_ tf) 
return image / image.max() 


def segment_ image (image): 
labeled_ image = label (image > 0) 


subimages = [] 
for region in regionprops (labeled image): 
start_x, start_y, end_ x, end = region.bbox 





subimages.append (image[start x:end x,start y:end yl]) 
if len(subimages) == 0: 

return [image,] 
return subimages 





random_ state = check_ random state(14) 
letters = list ("ABCDEFGHIJKLMNOPORSTUVWXYZ") 
shear_values = np.arange(0, 0.5, 0.05) 


def generate_sample (random state=None): 

random_state = check_random state(random state) 

letter = random state.choice(letters) 

shear = random_ state.choice(shear_values) 

return create captcha(letter, shear=shear, size=(20, 20)), 
letters.index(letter) 
dataset, targets = zip(* (generate sample(random state) for i in 





range (3000))) 
dataset = np.array (dataset, dtype='float') 
targets = np.array (targets) 


onehot = OneHotEncoder() 
y = onehot.fit transform(targets.reshape (targets.shape[0],1)) 
y = y.todense() .astype (np.float32) 


dataset = np.array ([resize(segment_image(sample) [0], (20, 20)) for 
sample in dataset]) 

X = dataset.reshape((dataset.shapel[0], dataset.shapel[l1] * dataset. 
shape[2])) 

X= XX /mmax() 

xX = X.astype (np.float32) 


XxX _ train, XxX test, y_train, y_test = \ 
train test_split (XxX, y, train size=0.9, random state=14) 


神经 网 络 由 一 系列 的 层 组 成 。 在 nolearn 中 实现 神经 网 络 ， 只 需 定义 它 由 Lasagne 哪 几 种 类 
型 的 层 组 成 就 行 ， 跟 pyBrain 做 法 大 同 小 异 。 第 8 章 所 创建 的 神经 网 络 使 用 的 是 全 连通 密集 层 
nolearn 有 相应 的 实现 ， 这 表明 我 们 可 以 用 nolearn 实 现 的 各 层 来 复制 第 8 章 神 经 网 络 的 基本 结 
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构 。 首 先 ， 创 建 由 输入 层 、 密 集 隐 含 层 和 密集 输出 层 组 成 的 层级 结构 。 


from lasagne import layers 

layers=[ 

'input', layers.InputLayer), 
'hidden', layers.DenseLayer), 
'output', layers.DenseLayer), 


( 
( 
( 
] 


导 和 以 下 所 需 模块 ， 用 到 时 再 解释 它们 的 作用 。 


from lasagne import updates 
from nolearn.lasagne import NeuralNet 
from lasagne.nonlinearities import sigmoid, softmax 


接着 ， 定 义 神经 网 络 ， 它 与 scikit-1learn 估 计 器 兼容 。 
net1l = NeuralNet (layers=layers, 


注意 上 面 代码 没 加 右 半 边 插 号 一 一 我 们 有 意 为 之 。 输入 神经 网 络 的 参数 , 先 从 每 层 的 大 小 开 
始 吧 。 








input_shape=X.shape， 
hidden num units=100, 
output_num units=26, 


上 述 参 数 跟 每 一 层 相 对 应 。 换 句 话 说 ，input_shape 参 数 就 会 去 查找 名 称 为 Input 的 输入 层 ， 
这 跟 在 流水 线 中 设置 参数 的 工作 原理 很 相似 。 


接着 , 定义 非 线 性 函数 。 跟 之 前 一 样 , 隐 含 层 使 用 sigmoid 函 数 , 输出 层 使 用 softmax 消 数 。 








hidden nonlinearity=sigmoid, 
output_nonlinearity=softmax, 


接 下 来 ,指定 偏 置 神经 元 ,它们 位 于 隐 含 层 , 一直 处 于 激活 状态 。 偏 置 神经 元 对 于 网 络 的 训 
练 很 重要 ,神经 元 激活 后 ， 可 以 对 问题 做 更 有 针对 性 的 训练 ， 以 消除 训练 中 的 偏差 。 举 个 简单 的 
例子 ， 如 果 预 测 结果 总 是 偏差 4， 我 们 可 以 使 用 -4 偏 置 值 抵 消 偏 差 。 我 们 设置 的 偏 置 神 经 元 就 能 
起 到 这 样 的 作用 ， 训 练 得 到 的 权重 决定 了 偏 置 值 的 大 小 。 


偏 置 项 为 一 组 权重 值 ， 它 所 包含 的 元 素数 量 应 与 它 所 连接 的 层 的 大 小 相同 。 
hidden b=np.zeros((100,), dtype=np.float32), 


接 下 来 ,定义 神经 网 络 的 训练 方式 。 我 们 在 第 8 章 中 用 到 的 训练 方法 ，nolearn 没 有 与 之 完 
全 相同 的 ， 因 为 nolearn 没 有 前 减 权 重 的 方法 。 然 而 , 它 的 确 有 冲 量 (momentum ), 我 们 这 里 使 
用 一 个 高 学 习 速 率 和 低 冲 量 值 。 





















































update=updates .momentum, 
update_ learning_rate=0.9, 
update_momentum=0.1, 
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接 下 来 ,我 们 把 分 类 问题 定义 为 回归 问题 。 这 看 起 来 有 点 奇怪 ， 因 为 这 是 分 类 任务 。 然 而 ， 
别 忘 了 输出 结果 是 一 组 数值 ， 在 训练 阶段 把 它 当 成 回归 问题 进行 优化 比 起 分 类 问题 效果 更 好 。 








regression=True, 


最 后 ， 最 大 训练 步 数 ( epoch ) 设置 为 1000， 这样 既 能 保证 训练 效果 ， 又 不 至 于 花 太 长 时 间 
( 对 于 我 们 数据 集 很 合适 ， 但 其 他 数据 集训 练 步 数 会 有 所 差异 )。 


max_epochs=1000, 

终于 可 以 把 创建 神经 网 络 这 个 函数 的 右 半 边 括号 加 上 了 。 
) 
接着 ， 在 训练 集 上 训练 网 络 。 
net1.fit (Xx train, y_train) 


现在 ， 我 们 来 评估 训练 得 到 的 网 络 。 首 先 ， 获 取 神 经 网 络 的 输出 ， 跟 Iris 分 类 一 样 ， 我 们 需 
要 使 用 argmax 方 法 找到 输出 值 中 最 大 的 一 项 ， 然 后 找到 它 所 对 应 的 类 别 。 


y_pred = netl.predict (xXx_test) 
y_pred = y_pred.argmax (axis=1) 
assert lenl(ly_pred) == len(X_ test) 
if lenl(ly_test.shape) > 1: 

y_test = y_test.argmax (axis=1) 
print (f1_score(y_test, y_pred)) 


结果 同样 振奋 人 心 一 一 在 我 的 计算 机 上 , 青 次 全 部 预测 正确 。 然 而 , 你 可 能 会 得 到 不 同 的 结 
果 ， 因 为 nolearn 库 具有 一 定 的 随机 性 ， 眼 下 无 法 直接 控制 。 
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神经 网 络 体 积 可 能 会 增长 得 很 大 ,这 意味 着 需要 更 多 内 存 ; 然而 , 使 用 稀 下 矩阵 这 样 高 效 的 
存储 方式 把 整个 神经 网 络 装 进 内 存 一 般 不 会 遇 到 问题 。 

神经 网 络 体 积 增 长 带 来 的 主要 问题 是 计算 时 间 增 加 。 此 外 ,对 于 有 些 数据 集 , 神经 网 络 需 要 
更 多 的 训练 步 数 才能 较 好 地 拟 合 数据 集 。 本 章 所 创建 的 神经 网 络 在 我 性 能 还 不 错 的 计算 机 上 , 每 
完成 一 步 训练 需要 八 分 多 钟 , 而 我 们 需要 运行 数 十 步 甚 至 成 百 上 千 步 训练 ,体积 更 大 的 神经 网 络 ， 
每 一 步 训 练 需要 几 个 小 时 ， 而 为 了 取得 最 佳 效果 ， 可 能 需要 成 干 上 万 步 训练 。 

多 长 时 间 才 能 完成 训练 啊 ! 

好 在 神经 网 络 最 核心 的 计算 类 型 主要 为 浮 点 型 运算 。 此 外 , 由 于 神经 网 络 训练 过 程 主 要 为 矩 
阵 操 作 ， 大 量 运算 都 可 以 并 行 处 理 。 这 些 因素 表明 用 GPU 进行 计算 ， 能 提升 训练 速度 。 



































198 ”第 11 章 用 深度 学 习 方法 为 图 像 中 的 物体 进行 分 类 





11.4.1 什么 时 候 使 用 GPU 进行 计算 


GPU 的 设计 初 囊 是 用 于 图 像 渲染 。 这 些 图 像 用 和 矩阵 及 由 和 矩阵 组 成 的 数学 方程 式 来 表示 ， 它 
们 被 转换 为 我 们 在 屏幕 上 看 到 的 像素 。 这 个 过 程 涉及 大 量 并行 计 算 。 如 今 的 CPU 很 可 能 是 多 核 
(你 的 计算 机 可 能 有 2、4， 甚 至 16 个 核 一 一 或 更 多 ! )，GPU 却 拥有 专门 用 于 图 像 处 理 的 成 千 上 万 


个 小 核 。 


CPU 每 个 核 单独 工作 速度 往往 更 快 ,访问 计算 机 内 存 等 操作 效率 更 高 , 因而 适合 处 理 序列 化 
任务 。 说 实话 ， 让 CPU 出 苦力 更 容易 ， 因 为 几乎 所 有 的 机 器 学 习 库 默认 使 用 CPU ， 如 果 要 用 GPU 
做 并 行 计算 ， 需 要 很 多 额外 工作 ， 但 是 它 所 带 来 的 好 处 也 是 显而易见 的 。 


有 些 任务 ,包含 大 量 数字 运算 ,但 计算 量 都 不 大 ,可 以 同时 处 理 ， 这样 的 任务 最 好 交 由 GPU 
来 处 理 。 很 多 机 器 学 习 任 务 都 具有 类 似 的 特点 ， 因 此 使 用 GPU 处 理 能 提升 算法 运行 速度 。 


让 代码 在 GPU 上 跑 起 来 可 不 简单 ,中 间 可 能 会 遇 到 各 种 各 样 的 挫折 , 具体 与 GPU 类 型 、 配 置 
方式 、 操 作 系统 相关 ， 有 时 你 可 能 还 需要 修改 计算 机 底层 设置 。 


使 用 GPU 运算 ， 主 要 方法 有 以 下 三 种 。 


口 第 一 种 ， 使 用 现 有 计算 机 。 了 解 你 的 计算 机 型 号 ， 查 找 GPU 、 操 作 系统 相关 的 软件 和 驱 
动 程序 ， 寻找 相关 教程 ， 软 件 、 教 程 是 否 能 用 与 操作 系统 相关 。 不 过 ， 现 在 使 用 GPU， 
比 前 几 年 容易 多 了 ， 有 更 多 更 好 的 软件 和 驱动 程序 来 启动 GPU 计 算 。 
口 第 二 种 ， 选 定 计算 机 系统 ， 找 到 关于 如 何 设 置 系统 的 文档 ， 购 买 一 台 装 有 这 种 系统 的 新 
计算 机 ， 买 的 系统 很 好 用 ， 但 是 可 能 相当 昂贵 一 一 如 今 的 计算 机 ，GPU 是 价格 最 高 的 部 
件 之 一 。 尤 其 是 你 对 性 能 有 更 高 要 求 的 话 一 一 你 需要 一 个 价格 不 菲 的 好 GPU。 
口 第 三 种 ， 使 用 专门 为 GPU 计算 而 配置 的 虚拟 机 。 例 如 ，Markus Beissinger 在 亚马逊 的 AWS 
上 搭建 了 一 个 这 样 的 系统 ， 该 系统 不 是 免费 的 ， 你 得 付费 才能 使 用 它 提供 的 服务 ， 但 是 
比 起 购买 一 台新 计算 机 要 便宜 得 多 。 具 体 费 用 由 你 所 在 的 区 域 、 使 用 的 系统 类 型 和 资源 
消耗 数量 来 决定 ， 你 可 能 每 小 时 花 不 到 1 美元 ,往往 比 这 还 要 少 得 多 。 如 果 你 使 用 AWS 的 
竞价 型 实例 ( spot instance )， 每 小 时 只 需 几 美 分 (然而 你 需要 单独 开发 在 竞价 型 实例 上 运 
行 的 代码 )。 
如 果 你 无 法 承担 虚拟 机 开销 ， 我 建议 你 使 用 上 面 提 到 的 第 一 种 方法 ， 即 使 用 现 有 的 计算 机 。 
你 还 可 以 试 试看 能 不 能 从 隔 段 时 间 就 要 换 装 备 的 家 人 或 朋友 那里 找到 二 手 GPU( 爱 玩 游戏 的 朋友 
很 可 能 有 哦 ! )。 








































































































































































































11.4.2 用 GPU 运行 代码 


我 们 这 里 将 使 用 上 述 第 三 种 方法 ， 在 Markus Beissinger 系 统 的 基础 上 创建 一 个 虚拟 机 ， 该 虚 
拟 机 运行 在 亚马逊 的 EC2 云 平台 上 。 除 了 EC2 ， 还 有 很 多 其 他 Web 服 务 可 供 使 用 ， 但 方法 可 能 跟 
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这 里 有 所 不 同 。 我 会 讲 下 如 何在 亚马逊 云 平 台 上 搭建 虚拟 机 。 
如 果 你 打算 使 用 自己 的 计算 机 ， 并 且 已 经 配置 好 ， 可 以 用 GPU 进行 计算 了 ， 请 跳 过 该 节 。 




















关于 如 何 进 行 设 置 的 更 多 信息 ,请 见 http:/markus.conyinstall-theano-on-aws/， 
> 也 许 还 提供 在 其 他 计算 机 上 启用 GPU 计 算 的 方法 。 


下 面 ， 看 下 如 何在 AWS 上 创建 虚拟 机 。 首 先 ， 访问 AWS 的 登录 界面 。 
https://console.aws.amazon.com/console/home?region=us-east-1 

用 你 的 AWS 账 号 登录 。 如 果 没 有 ， 得 先 创 建 一 个 才能 继续 下 面 的 操作 。 

接着 , 访问 EC2 云 平台 的 控制 台 : https://console.aws.amazon.com/ec2/v2/home?region=us-east-1。 
点 击 Launch Instance， 从 右上 方 的 下 拉 菜 单 中 选择 N. Califomia 作 为 目的 地 。 


点 击 Community AMIs， 搜 索 ami-b141a2f5， 这 就 是 Markus Beissinger 创 建 的 系统 。 然 后 ， 点 
击 Select。 下 一 屏 中 的 机 器 类 型 选择 g2.2xlarge， 点 击 Review and Launch。 在 下 一 屏 , 点 击 Launch。 


这 个 时 候 ，AWS 开 始 向 你 收费 , 所 以 使 用 完毕 后 请 关机 。 从 EC2 云 平台 选择 你 刚 创 建 的 云 主 
机 ， 先 停止 运行 。 机 器 处 于 停机 状态 ， 不 需要 支付 费用 。 


系统 会 给 出 如 何 连接 虚拟 机 的 相关 信息 。 如果 你 之 前 没有 使 用 过 AWS, 你 可 能 需要 创建 密 钥 
以 安全 连接 虚拟 机 。 创 建 时 ， 需 要 指定 密 钥 的 名 称 ， 下 载 .pem 格 式 的 密 钥 文件 ,将 其 保存 到 一 个 
安全 地 方 一 一 一 旦 丢失 ， 你 将 无 法 登录 自己 的 虚拟 机 ! 

点 击 Connect， 了 解 如 何 使 用 密 钥 文件 连接 虚拟 机 。 你 很 可 能 是 用 如 下 ssh 命 令 登 录 。 


ssh -i <certificante name>.pem ubuntu@<server_ip_address> 

















11.5 ”环境 搭建 


连接 到 虚拟 主机 后 ， 你 可 以 安装 最 新 的 Lasagne 和 nolearn 库 。 
首先 ， 使 用 sit 命 令 克隆 Lasagne 代 人 码 人 仓库， 本章 前 面 用 过 。 


git clone https://github.com/Lasagne/Lasagne.git 


在 虚拟 机 上 编译 这 个 库 ， 需 要 用 到 Python 3 的 setuptools， 我 们 可 以 用 Ubuntu 常用 的 应 用 
和 包 管 理 命令 apt-get 来 安装 ; 我 们 还 需要 numpy 的 开发 版 。 


在 虚拟 机 的 命令 行 运行 下 述 命令 。 


sudo apt-get install python3-pip python3-numpy-dev 
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接着 ， 安 装 Lasagne。 首 先 ， 切 换 到 源 代 码 所 在 的 目录 ， 然 后 运行 setup .py 完成 安装 。 


cd Lasagne 
Sudo python3 setup.py install 





我 们 已 经 安装 了 Lasagne, 还 需要 安装 nolearn, 为 了 简单 起 见 ， 把 它 俩 都 

。 ”作为 系统 包 来 安装 。 考 卡 到 可 移植 性 ， 建 议 你 使 用 virtualenv 安 装 这 些 包 ， 这 
样 你 可 以 在 同一 全 虚拟 机 上 使 用 不 同 版 本 的 Python 和 第 三 方 包 , 把 代码 移植 到 其 
他 机 器 上 也 更 容易 。 更 多 信息 请 见 http://docs.python-guide.org/en/latest/dev/ 


virtualenvs/。 


Lasagne 编 译 好 后 ， 我 们 就 可 以 安装 aolearn。 切 换 到 你 自己 的 主 目 录 ， 照 下 面 的 步 又 来 ， 
跟前 面 安装 Lasagne 的 步 又 相同 ， 只 不 过 要 注意 这 次 克隆 的 是 nolearn。 








cd ~/ 

git clone https://github.com/dnouri/nolearn.git 
cd nolearn 

Sudo python3 setup.py install 








我 们 的 环境 差不多 搭建 好 了 。 还 需要 安装 scikit-learn、scikit-image 库 ， 这 两 个 库 都 
可 以 用 pip3 安 装 ， 这 些 库 所 依赖 的 scipy 和 matplotlib 也 没有 安装 。 建 议 使 用 apt -get 来 安装 scipy 





和 matplotlib ， 因 为 使 用 pip3 可 能 会 遇 到 比较 环 手 的 问题 。 


Sudo apt-get install python3-scipy python3-matplotlib 


Sudo pip3 install scikit-learn scikit-image 


接着 ,需要 把 代码 搬 到 虚拟 机 上 ， 方 法 有 很 多 ， 最 简单 














的 莫 过 于 复制 











粘贴 。 








首先 ， 打开 前 面 用 过 的 笔记 本 文件 ( 在 你 本 地 的 计算 机 上 ， 不 是 在 
































亚马逊 的 虚拟 机 上 )。 笔 


记 本 文件 顶部 有 一 个 菜单 。 点 击 File， 然 后 再 点 击 Download as， 选 择 Python ， 将 其 保存 到 本 地 计 
算 机 上 。 该 步骤 将 笔记 本 文件 保存 为 可 以 从 命令 行 运行 的 .py 文件 。 








打开 .py 文件 ( 有些 操作 系统 ， 你 可 能 需要 右键 单 击 该 文件 ， 从 红 





辑 需 打开 ) 文件 打开 后 ， 选 择 所 有 的 内 容 ， 将 其 复制 到 剪 册 























占 板 。 














出 的 菜单 中 选择 用 文本 编 





回 到 亚马逊 的 虚拟 主机 ， 切 换 到 主 目录 ,用 nanc 文 本 编辑 咒 打 开 一 个 新 文件 。 





cd ~/ 
nano chapterllscript .py 





nano 为 命令 行文 本 编辑 器 ， 上 述 命令 将 在 命令 行 打开 新 文件 。 























文件 打开 后 ， 把 剪贴 板 的 内 容 粘 贴 到 里 面 。 在 有 些 系 统 
操作 命令 来 完成 文件 上 传 ， 而 不 是 按 快捷 键 Ctrl+V 粘 贴 。 




















中 ， 你 可 能 需 


在 nano 中 ， 按 下 Ctrl+O 保 存 文件 ， 再 按 Ctrl+X 退 出 nano。 











要 借助 ssh 程 序 的 文件 
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你 还 需要 字体 文件 。 最 简单 的 方法 是 从 原 地 址 再 下 载 一 遍 ， 具 体 步 骤 如 下 。 


wget http://openfontlibrary.org/assets/downloads/bretan/680bc56bbeeca9535 
3ede363a3744fdf/bretan.zip 

sudo apt-get install unzip 

unzip -p bretan.zip Coval.otf > Coval.otf 


上 述 代 码 用 unzip 命 令 解 压 Coval.otf 文 件 (压缩 包 里 有 大 量 的 zip 文 件 ， 我 们 用 不 到 )。 
在 虚拟 机 的 命令 行 里 输入 以 下 命令 运行 程序 。 








python3 chapterllscript .py 


程序 将 会 像 在 IPython Notebook 笔 记 本 里 那样 运行 ， 把 结果 输出 到 命令 行 。 


结果 应 该 跟 之 前 一 致 , 但 是 神经 网 络 的 训练 和 测试 比 之 前 更 快 。 程序 其 他 方面 可 能 没 那么 
快 一 一 生成 验证 码 数据 集 部 分 没有 使 用 GPU， 因 此 速度 不 会 提升 。 

















KW 能 希望 关闭 亚马逊 虚拟 主机 来 省 点 钱 , 本 章 最 后 运行 大 实验 的 相关 程序 
PR 我 们 接 下 来 先 在 本 地 计算 机 上 进行 开发 。 
11.6 ”应 用 





回 到 本 地 计算 机 ,打开 本章 创建 的 笔记 本 文件 一 一 我 们 用 来 加 载 CIFAR 数 据 集 的 。 接 下 来 的 
大 实验 将 使 用 CIFAR 数 据 集 ， 创 建 深 度 卷 积 神经 网 络 ， 然 后 在 虚拟 机 上 使 用 GPU 来 运行 。 








由 














0 





11.6.1 获取 数据 


首先 ， 用 CIFAR 图 像 创建 数据 集 。 跟 之 前 不 同 的 是 素 结 素 的 行列 号 。 先 把 
所 有 批 次 的 图 像 文件 名 存储 到 列表 中 。 
import numpy as np 
batches = [] 
for i in range(1, 6): 
batch_ filename = os.path.join(data_ folder, "data _ batch _{}". 
format ( 工 ) ) 
patches .appendq(unpickle(batch1_ filename) ) 
break 


上 面 最 后 一 行 的 break 语 句 是 用 来 测试 代码 一 一 这 会 极 大 地 减少 训练 数据 , 便于 你 迅速 了 解 
代码 是 否 能 正常 运行 。 测 试 过 代码 能 正常 工作 后 ， 我 会 提示 你 删 掉 这 一 行 。 


接着 ， 把 每 批 次 的 图 像 文 件 依次 添加 到 数据 集 里 。 我 们 用 到 了 NumPy 的 vstack 方 法 ， 你 可 
以 把 它 看 作 是 往 数 组 末尾 追加 一 行 数据 。 
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机 


xX = np.vstack([batch['data'] for batch in batches]) 


然后 , 把 像素 值 归 一 化 , 并 将 其 强制 转换 为 32 位 浮 点 型 数据 ( 这 是 使 用 GPU 进行 计算 的 虚拟 























全 一 支持 的 数据 类 型 )。 











np.array (X) / X.max() 


x = 
xX = X.astype (np.float32) 


类 别 数据 处 理 方法 相同 ， 只 不 过 我 们 使 用 hpstack， 它 为 数组 末尾 追加 一 列 数 据 。 然 后 使 用 





OneHotEncoder 把 它 转 换 为 只 含有 一 位 有 效 编码 的 数组 。 





from sklearn.preprocessing import OneHotEncoder 

y = np.hstack (batch['labels'] for batch in batches) .flatten() 

y OneHotEncoder() .fit_ transform(y.reshapel(ly.shape[0],1)).todense!() 
Y y.astype (np.float32) 


接 下 来 ， 把 数据 集 切 分 为 训练 集 和 测试 集 。 


xX _ train, XxX test, y_train, y_test = train test_ split(x, y, test_ 
size=0.2) 


调整 数组 形状 以 保留 原始 图 像 的 数据 结构 。 图 像 原 本 是 32 像 素 见 方 , 每 个 像素 由 三 个 值 组 成 


(分 别 表 示 红 、 绿 、 蓝 的 颜色 值 )。 


11. 


xX _ train = XxX train.reshape(-1, 3, 32, 32) 
xX test = XxX test.reshape(-1, 3, 32, 32) 


我 们 现在 准备 好 了 训练 集 、 测 试 集 以 及 目标 类 别 ， 可 以 创建 分 类 器 了 。 


6.2 创建 神经 网 络 
我 们 使 用 nolearn 库 创建 神经 网 络 ， 步 又 跟 我 们 上 面 重 做 第 8 章 实验 时 所 用 到 的 一 致 。 
首先 ， 创 建 神经 网 络 的 各 层 。 





from lasagne import layers 

layers=|[ 
('input', layers.InputLayer), 
('convl', layers.Conv2DLayer), 
('PpPooll', layers.MaxPool2DLayer), 
('conv2', layers.Conv2DLayer), 
('PpPool2', layers.MaxPool2DLayer), 
('conv3', layers.Conv2DLayer), 
('PpPool3', layers.MaxPool2DLayer), 
('hidden4', layers.DenseLayer), 
('hidden5', layers.DenseLayer), 
('output', layers.DenseLayer), 


] 
最 后 三 层 使 用 密集 层 ， 但 是 前 面 使 用 三 组 卷 积 层 和 池 化 层 。 此 外 , 我 们 ( 必须 ) 以 输入 层 开 
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台 。 这 样 一 共有 10 层 。 输 入 数据 跟 数据 集 同 型 ， 而 不 只 跟 输 入 层 的 神经 元 数量 相等 ， 输 入 层 和 输 
出 层 大 小 仍 由 数据 集 来 定 ， 跟 前 面 讲 过 的 相同 。 


开始 创建 神经 网 络 〈 注意 下 面 第 二 行 代码 没有 结束 ， 先 不 要 加 右 半边 括号 )。 


from nolearn.lasagne import NeuralNet 
nnet = NeuralNet (layers=layers, 


指定 输入 数据 的 形状 ， 跟 数据 集 形状 一 致 ( 每 个 像素 由 三 个 值 组 成 ,图像 32 像 素 见 方 )。 第 
一 个 值 None 表 示 nolearn 每 次 使 用 默认 数量 的 图 像 数 据 进行 训练 一 一 它 将 立即 用 这 些 数据 进行 
训练 ， 降 低 算法 运行 时 间 。 设 置 为 None， 避 免 硬 编码 ， 算 法 使 用 起 来 更 灵活 。 









































input_shape= (None, 3, 32, 32), 


如 果 你 想 每 次 使 用 不 同 的 数据 量 进行 训练 ， 就 需要 创建 BatchIterator 实例 。 
感 兴趣 的 读者 可 参考 如 下 文件 : https://github.com/dnouri/nolearn/blob/master/ 
~ nolearn/lasagne.py， 了 解 NeuralNet 类 中 batch_ iterator train 和 pbatch_ 
iterator_test 参 数 是 如 何 设置 的 。 




















接着 , 设置 卷 积 层 的 大 小 。 没有 严格 的 规则 可 遵守 , 但 是 我 发 现 一 开始 用 下 面 这 些 值 就 不 错 。 





convl num filters=32, 
EONnvl, filter Size=(3; 3)y 
conv2_num filters=64, 
conv2_filter_ size=(2, 2), 
Conv3_num filters=128, 
conv3_filter_size=(2, 2), 


filter_size 参 数 规定 卷 积 层 用 于 查看 图 像 窗 口 的 大 小 。 此 外 ， 还 要 设置 池 化 层 的 大 小 。 


pooll_ds=(2,2), 
GoGL2 .dss (2.2)., 
pool3_ds=(2,2), 
然后 ， 设 置 两 层 隐 含 层 ( 倒数 第 三 层 和 倒数 第 二 层 )、 输 出 层 的 大 小 ， 输 出 层 大 小 跟 数 据 集 
类 别 数量 相等 。 











hidden4 num units=500, 
hidden5_num units=500, 
output_num units=10, 


最 后 一 层 需要 设置 非 线性 函数 ， 还 是 用 softmax。 





output_ nonlinearity=softmax, 
还 要 设置 学 习 速 率 和 冲 量 。 据 经 验 来 看 ， 随 着 数据 量 的 增加 ， 学 习 速 率 应 该 下 降 。 


update_learning_ rate=0.01, 
update_momentum=0 .9， 
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跟 之 前 一 样 ， 把 regression 参 数 设置 为 Trrue， 训 练 步 数 设置 为 很 小 的 值 3， 因 为 我 们 创建 
的 这 个 神经 网 络 运行 时 间 相 对 较 长 。 神经 网 络 确定 能 正常 运行 之 后 ,可 以 尝试 增加 训练 步 数 以 得 
到 更 好 的 模型 ， 但 是 可 能 要 花 一 两 天 时 间 (甚至 更 长 ! ) 来 训练 它 。 


regression=True, 
max_epochs=3, 


最 后 一 个 参数 verbose 设 置 为 1， 这 样 每 步 训练 都 会 输出 结果 ， 以 便于 我 们 了 解 模 型 的 训练 
进度 以 及 它 是 否 在 运行 。 此 外 ,还 能 输出 每 一 步 训练 所 花 的 时 间 ， 这 个 值 变化 不 大 ， 因 此 用 每 步 
训练 所 花 时 间 乘 以 剩余 训练 步 数 就 能 算出 总 共 还 需要 多 长 时 间 才 能 完成 训练 。 


verbose=1) 




















11.6.3 组装 起 来 
现在 就 可 以 在 训练 集 上 训练 我 们 刚 创建 的 神经 网 络 。 


nnet.fit (x train, y_train) 


这 可 真是 要 费 点 时 间 了 ， 即 使 我 们 只 使 用 了 部 分 训练 数据 ,并 且 还 限制 了 训练 步 数 。 一旦 代 
码 运行 结束 ， 测 试 方法 跟 之 前 一 样 。 











from sklearn.metrics import f1_score 
y_pred = nnet.predict (Xx_test) 
print (fl1_score(y_test.argmax(axis=1), y_pred.argmax (axis=1))) 


结果 很 糟糕 一 一 本 应 如 此 ! 我 们 没有 经 过 充分 训练 只 进行 了 三 轮 迭 代 ， 且 只 使 用 了 1/5 
的 数据 。 

首先 , 回 过 头 去 删除 创建 数据 集 代码 中 的 break 语 句 (在 遍历 每 批 数 据 的 for 循 环 中 )。 这 样 
就 能 使 用 所 有 数据 而 不 只 是 部 分 数据 进行 训练 。 

接着 ， 在 神经 网 络 的 定义 中 ， 把 训练 步 数 改 为 100。 

现在 ， 把 代码 粘贴 到 虚拟 机 上 。 跟 之 前 一 样 ， 点 击 File | Download as， 选 择 Python ， 把 代码 
保存 为 .py 文件 。 启 动 、 连 接 到 虚拟 机 ， 像 之 前 把 代码 那样 粘贴 过 去 〈 我 把 这 里 的 .py 文件 命名 为 
chapterllcifar.py 一 一 如 果 你 使 用 其 他 名 字 ， 请 记得 在 下 面 代码 中 做 相应 改动 )。 

接 下 来 ,我 们 需要 把 数据 集 捣 腾 到 虚拟 机 上 。 最 简单 的 方法 是 在 虚拟 机 的 命令 行 输入 以 下 


命令 。 



























































全 


wget http://ww.cs.toronto.edu/~kriz/cifar-10-python.tar.gz 
下 载 数据 集 ， 新 建 Data 文 件 夹 ， 把 数据 文件 解压 到 Data 文 件 夹 中 。 


mkdir Data 
tar -zxf cifar-10-python.tar.gz -C Data 
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最 后 ， 使 用 下 面 命令 运行 实验 代码 。 





python3 chapterllcifar.py 


你 首先 注意 到 的 将 是 速度 大 幅 提 升 。 在 我 的 本 地 计算 机 上 ， 每 步 训 练 需要 100 秒 以 上 。 在 启 
用 GPU 的 虚拟 机 上 ， 每 步 训练 只 需 16 秒 ! 在 我 本 地 计算 机 上 进行 100 步 训练 , 需要 近 3 个 小 时 ,而 
虚拟 机 只 需要 26 分 钟 。 

速度 上 的 大 幅 提 升 使 得 我 们 可 以 快速 测试 不 同 模型 的 效果 。 对 于 机 器 学 习 算法 调试 来 说 , 一 
个 算法 的 计算 复杂 性 问题 不 大 ， 只 要 几 秒 钟 、 几 分 钟 ， 多 则 几 个 小 时 就 可 以 运行 完 。 因此， 只 有 
一 个 模型 , 训练 时 间 长 点 短 点 不 会 有 太 大 问题 一 特别 是 大 多 数 机 器 学 习 算 法 都 能 很 快 给 出 预测 
结果 ， 这 也 正 是 为 什么 大 多 数 情况 都 使 用 一 个 模型 。 


然而 , 要 调试 多 个 参数 时 ,你 就 需要 训练 成 千 上 万 个 模型 ,各 模型 之 间 参 数 差 异 很 小 
度 提 升 问题 就 变 得 很 重要 。 
26 分 钟 后 ， 完 成 100 步 训练 ， 得 到 最 终 的 输出 结果 。 
0.8497 


结果 还 不 错 ! 我 们 可 以 增加 训练 步 数 ,进一步 改善 效果 或 者 也 可 以 尝试 修改 参数 值 ， 增 加 隐 
含 层 节 点 、 卷 积 层 的 数量 , 或 者 多 使 用 一 层 密 集 层 。 也 可 以 尝试 用 Lasagne 其 他 类 型 的 层 , 虽然 
一 般 来 讨 ， 卷 积 层 更 适合 处 理 视觉 问题 。 
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11.7 小结 


本 章 讲解 了 深度 神经 网 络 ,为 了 处 理 计算 机 视觉 问题 , 着 重 讲解 卷 积 网 络 。 我 们 使 用 Lasagne 
和 nolearn 库 来 构建 神经 网 络 ， 很 多 数据 处 理工 作 交 由 Theano 来 做 。 用 nolearn 提 供 的 工具 构 
建 神经 网 络 相 对 比较 容易 。 


卷 积 神经 网 络 专门 用 来 处 理 计算 机 视觉 问题 ， 所 以 最 后 得 到 的 分 类 结果 很 精确 也 不 足 为 奇 。 
最 终结 果 表明 ， 随 着 算法 和 计算 能 力 的 提升 ,计算机 视觉 的 应 用 前 景 也 更 为 广阔 。 


我 们 在 虚拟 机 上 使 用 GPU 计算 , 大 幅 提 升 训 练 速度 , 在 虚拟 机 上 运行 的 速度 几乎 是 我 本 地 计 
算 机 的 10 倍 。 如 果 某 些 算法 需要 额外 的 计算 能 力 , 可 以 考虑 使 用 性 价 比 很 高 的 云 主 机 (一 般 每 小 
时 不 到 1 美元 ) 只 要 记得 用 完 后 即时 关机 就 好 ! 


本 章 所 研究 的 卷 积 网 络 算法 相当 复杂 。 卷 积 网 络 训练 时 间 长 ， 有 很 多 参数 需要 训练 。 数 据 集 
看 似 不 小 ,其 实 还 称 不 上 大 数据 ， 甚 至 不 用 稀 玻 矩阵 ， 就 能 把 这 些 数据 全 部 加 载 到 内 存 。 下 章 所 
讲 的 算法 更 加 简单 , 但 是 数据 集 却 特别 大 ,无 法 装 进 内 存 ， 这 是 大 数据 最 显著 的 一 个 特点 ,采矿 
业 和 社交 网 络 等 行业 所 产生 的 数据 都 具有 这 个 特点 。 



















































































大 数据 处 理 











当今 社会 数据 量 呈 指数 级 增长 , 这 些 数 据 来 自 于 用 户 行为 监测 系统 、 分 布 式 系统 、 网 络 分 析 、 
传感器 等 。 移 动 互 联网 的 迅速 发 展 又 带 来 移动 数据 的 增长 ， 此 外 ， 下 一 个 大 潮流 一 一 物 联 网 
(Internet of Things，IoT ) 又 会 进一步 提升 数据 增长 速度 。 











挖掘 大 数据 需要 有 新 思路 。 运行 时 间 很 长 的 复杂 算法 要 么 改进 要 么 抛弃 ,而 能 够 处 理 更 多 数 
据 , 复杂 程度 相对 简单 的 算法 正 变 得 更 加 流行 起 来 。 例如， 支持 向 量 机 是 很 好 的 分 类 器 ,但 是 它 
的 一 些 变种 很 难 在 大 型 数据 集 上 使 用 。 相 反 ， 逻 辑 回归 等 相对 简单 的 算法 处 理 大 数据 集 更 容易 。 

本 章 主 要 内 容 如 下 : 

口 大 数据 的 挑战 及 其 应 用 
口 MapReduce 范 式 


QD Hadoop MapReduce 
口 在 亚马逊 平台 上 运行 MapReduce 程 序 的 Python 包 mrjob 












































12.1 大 数据 
大 数据 具有 哪些 特点 呢 ? 它 的 大 多 数 支持 者 认为 有 以 下 4 个 特点 ， 简 称 4V。 


(1) 海量 ( Volume ): 我 们 产生 和 存储 的 数据 量 加 速 增长 ， 未 来 势头 看 起 来 会 更 猛 。 现 在 常用 
的 硬盘 容量 单位 为 GB ， 再 过 几 年 就 会 变 为 EB"。 同 时 网 络 吞 吐 量 也 会 增长 。 信 噪 比 不 容 乐观 , 重 
要 信息 很 可 能 被 海量 重要 程度 低 的 信息 淹没 。 





(2) 高 速 ( Velocity ): 数据 量 增 长 的 同时 ， 数 据 处 理 速度 在 加 快 。 就 拿 现 如 今 的 汽车 举例 子 ， 
每 辆 车 装 有 成 百 上 千 个 传感器 , 这 些 传 感 器 不 停 地 向 汽车 内 置 的 计算 机 传送 数据 ,要 完成 操纵 汽 
车 的 任务 ,数据 的 分 析 处 理 速度 需要 达到 次 秒 级 水 准 。 这 不 仅 要 从 大 量 数据 中 寻找 答案 ， 还 得 速 
度 快 。 














Q@ EB (exabyte )， 艾 字 节 ，1EB=1024PB，1PB=1024TB，1TB=1024GB。1EB 约 等 于 10 亿 GB。 一 一 译 者 注 
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(3) 多 样 ( Variety ): 数据 集 有 多 种 形式 ， 各 列 清晰 定义 的 规整 数据 集 只 占 其 中 很 少 一 部 分 。 
想 想 社交 网 站 的 一 条 消息 吧 ， 它 可 能 包含 文本 、 照 片 、 提 及 其 他 用 户 ”、 襄 欢 数 、 评 论 数 、 视 频 、 
地 理 位 置信 息 等 。 简 单 地 忽略 掉 这 些 难 以 整合 进 模型 的 数据 势必 会 导致 信息 丢失 。 


(4) 准确 ( Veracity ): 随 着 数据 量 的 增加 ， 很 难 确定 采集 到 的 数据 是 否 正确 一 一 是 否 过 时 、 
充满 噪音 ， 有 没有 包含 异常 数据 ,或 者 总 体 来 说 是 否 有 用 等 。 倘 若 人 们 无 法 对 数据 的 准确 性 进行 
有 效 验 证 ,要 信赖 数据 很 难 。 人 们 从 外 部 得 到 的 数据 集 被 不 停 地 整合 到 内 部 数据 集中 , 使 得 数据 
的 准确 性 这 个 问题 更 加 突出 。 


从 以 上 四 点 (也 有 人 认为 是 五 点 ”) 就 能 看 出 大 数据 不 仅仅 是 大 量 的 数据 ， 处 理 大 数据 对 工 
程 能 力 要 求 很 高 一 一 更 不 用 说 对 它们 进行 分 析 了 。 很 多 “ 蛇 油 商人 ”“ 只 关心 怎样 夸大 大 数据 的 
应 用 ， 却 避 而 不 谈 大 数据 工程 的 挑 成 以 及 潜在 分 析 工 作 的 难度 。 

我 们 前 面 用 过 的 这 些 算法 都 是 把 数据 集 加 载 到 内 存 后 再 进行 处 理 。 这 对 于 提升 计算 速度 很 有 
好 处 ,因为 处 理 已 经 在 内 存 中 的 数据 比 起 先 从 硬盘 加 载 到 内 存 后 再 处 理 要 快 得 多 。 此 外 , 我 们 可 
以 对 内 存 中 的 数据 进行 多 次 迭代 ， 改 善 模型 。 

对 于 大 数据 ,我 们 就 无 法 将 其 加 载 到 内 存 中 。 从 很 多 方面 来 讲 ， 可 以 用 此 来 判断 一 个 问题 能 
不 能 称 得 上 大 数据 问题 一 一 如 果 数 据 可 以 加 载 到 你 计算 机 内 存 中 ， 那 就 算 不 上 大 数据 。 




































































12.2 ”大 数据 应 用 场景 和 目标 
企业 和 个 人 都 离 不 开 大 数据 。 


所 有 以 大 数据 为 基础 的 系统 中 , 人 们 与 之 打交道 最 多 的 当 属 谷歌 这 样 的 搜索 引擎 。 对 于 搜索 
引擎 来 说 , 要 在 零点 几 秒 的 时 间 内 对 几 十 亿 甚 至 更 多 的 网 站 完成 一 次 搜索 ,基础 的 文本 查询 肯定 
满足 不 了 需求 ， 单 是 存储 这 么 多 网 站 的 文本 内 容 就 是 个 大 难题 。 要 完成 搜索 引擎 中 的 查询 任务 ， 
就 需要 专门 创建 新 数据 结构 和 使 用 新 数据 挖掘 方法 。 


很 多 其 他 科学 实验 也 都 用 到 了 大 数据 技术 ， 例 如 大 型 强 子 对 撞 机 (Large Hadron Collider )。 
该 机 器 长 达 27 公 里 ， 装 有 1.5 亿 个 传感器 ， 用 于 监测 每 秒 几 亿 个 强 子 的 对 撞 情 况 ， 对 撞 机 局 部 照 
片 请 见 下 图 。 对 撞 实验 产生 的 数据 量 十 分 惊人 ， 每 天 过 滤 后 还 有 25PB ( 假如 不 过 滤 ， 每 年 将 产 
生 1.5 亿 PB 数 据 )。 这些 数据 隐藏 着 宇宙 的 奥秘 ,对 其 进行 分 析 能 加 深 我 们 对 宇宙 的 认识 , 但 是 工 





















































@ 指 “@” 加 用 户 名 这 种 形式 。 一 一 译 者 注 

@ 有 人 认为 大 数据 的 另 一 个 特点 是 价值 ( Value )， 经 过 挖掘 得 到 的 结论 有 实际 应 用 价值 。 译 者 注 

@ 蛇 油 商人 ( snake oil salesman ) 跟 “ 江 湖 即 中 ”有 相同 的 贬义 内 涵 。19 世 纪 ， 国 人 赴 美 修建 北 太 平 洋 铁路 ， 带 去 
从 南方 水 蛇 体 内 提炼 的 蛇 油 ， 以 祛 风 湿 ， 缓 筋骨 之 痛 ， 颇 受 当 地 人 欢迎 。 后 美国 商人 Clark Stanley 等 改 从 北美 响 
尾 蛇 提 炼 蛇 油 ,批量 生产 ， 但 效果 较 差 ， 甚 至 出 现 产品 中 压根 不 含 蛇 油 的 造假 现象 。 该 词 遂 被 用 来 指 打 着 不 容 置 
疑 的 旗号 ， 推 销假 冒 伪劣 谋求 私利 的 骗子 。 一 一 译 者 注 
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程 量 很 大 ， 分 析 起 来 也 相当 困难 。 











政府 部 门 对 大 数据 的 重视 程度 也 在 逐渐 增加 ,以 充分 了 解 人 口 、 商 业 活 动 和 国家 其 他 各 方面 
的 情况 。 跟 踪 几 千 万 乃至 几 亿 人 口 及 成 百 上 千 亿 的 交易 量 ( 商贸 或 医疗 开支 )， 很 多 政府 机 构 都 
需要 依靠 大 数据 分 析 技 术 才 能 完成 。 

全 球 很 多 政府 尤其 关注 交通 管理 ， 他 们 使 用 数 以 千 万 计 的 传 感 吕 判断 哪些 道路 堵塞 最 为 严 
重 ， 预 测 新 修道 路 对 交通 状况 的 影响 。 


大 型 零售 商 使 用 大 数据 改善 客户 体验 ， 降 低 支 出 。 这 包括 预测 客户 需求 ， 保 证 供 货 量 适 度 ， 
向 客户 推销 他 们 可 能 喜欢 的 产品 , 跟踪 交易 数据 , 寻找 购物 潮流 和 消费 模式 , 发 现 潜在 欺诈 行为 。 


还 有 很 多 大 公司 用 大 数据 提高 公司 经 营 管理 的 自动 化 程度 , 改善 产品 和 服务 质量 。 他 们 通过 
大 数据 分 析 预 测 行业 风向 ,跟踪 外 部 竞争 者 。 他 们 还 把 大 数据 用 到 员工 管理 上 一 一 跟踪 员工 , 发 
现 其 离职 倾向 以 及 时 干预 。 


言 息 安全 部 门 通过 监测 网 络 流量 , 结合 大 数据 技术 ,寻找 大 型 网 络 的 恶意 软件 感染 ,这 包括 
寻找 奇怪 的 流量 模式 , 恶意 软件 传播 迹象 和 其 他 反常 现象 。 高 级 持续 性 威胁 ( Advanced Persistent 
Threats，APTs ) 攻击 也 很 令 人 抓 狂 ， 攻 击 者 把 恶意 代码 藏 在 大 型 网 络 中 ， 长 期 从 网 络 中 窃取 信 
息 或 从 事 其 他 破坏 活动 。 寻 找 APTS 往 往 需要 检查 很 多 台 计 算 机 进行 取证 ， 费 时 费力 ， 仅 靠 人 工 
很 难 完 成 ， 这 时 就 可 以 使 用 大 数据 技术 实现 自动 化 检查 、 取 证 。 


大 数据 方兴未艾 ， 正 在 越 来 越 多 的 行业 和 应 用 中 大 显 身 手 。 


















































12.3 MapReduce 
大 数据 挖掘 和 计算 有 几 个 主要 概念 ， 其 中 最 为 流行 的 就 是 MapReduce 模 型 ， 它 可 用 于 任意 大 
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数据 集 的 一 般 性 计算 任务 。 


谷歌 出 于 并 行 计算 的 需要 ， 最 先 提出 了 MapReduce 模 型 。 它 还 引入 了 容错 和 可 伸缩 特性 。 
MapReduce 最 初 的 研究 发 表 于 2004 年 ， 打 那 时 起 ,成 千 上 万 的 项 目 、 实 现 和 应 用 都 用 到 了 这 一 
概念 。 


虽然 MapReduce 跟 之 前 很 多 概念 有 相似 之 处 ,但 这 不 影响 它 成 为 大 数据 分 析 领 域 的 核心 
概念 。 




















12.3.1 直观 理解 


MapReduce 主 要 分 为 两 步 : 映射 (Map ) 和 规约 (Reduce )。 函 数 式 程序 设计 中 有 把 函数 映射 
到 列表 和 规约 结果 的 概念 ，MapReduce 以 这 两 个 概念 为 基础 。 为 了 解释 映射 和 规约 ， 我 们 举 个 例 
子 ， 编 写 代 码 遍历 一 串 列 表 ， 计 算 所 有 列表 中 数字 之 和 。 


MapReduce 范 式 还 包括 排序 (shuffle ) 和 合并 (combine ) 两 步 ， 后 面 会 讲 。 


首先 ,在 映射 这 一 步 ， 接 收 一 个 函数 , 用 这 个 函数 处 理 列 表 的 各 元 素 , 返回 跟 之 前 列表 长 度 
相等 的 列表 ， 新 列表 的 元 素 为 函数 的 返回 结果 。 

打开 一 个 新 的 IPython Notebook 笔 记 本 文件 ， 创 建 一 列表 ， 列 表 中 各 元 素 为 包含 几 个 数字 的 
列表 。 

2 


接着 ， 建 立 sum 函 数 和 a 之 间 的 映射 关系 。 这 一 步 会 用 sum 函 数 处 理 列 表 a 的 每 一 个 元 素 。 














sums = map (sum, a) 
上 述 sums 为 生成 器 〈 在 我 们 调用 它 之 前 ， 不 会 进行 计算 )， 上 面 这 行 代码 大 体 上 等 价 于 : 


sums = [] 

for sublist in a: 
results = sum(sublist) 
sums.append (results) 


规约 步骤 要 稍微 复杂 些 , 需要 对 返回 结果 的 每 一 个 元 素 应 用 一 个 函数 ， 从 初始 值 开始 ,对 初 
始 值 和 第 一 个 值 应 用 指定 函数 ,得 到 返回 结果 ,然后 再 对 所 得 到 的 结果 和 下 一 个 值 应 用 指定 函数 ， 
以 此 类 推 。 

我 们 来 创建 一 个 函数 ， 接 收 两 个 数字 作为 参数 ， 返 回 两 个 数字 的 和 。 


def add(a, b): 
return a + pb 
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然后 进行 规约 。 规约 函数 形式 为 reduce ( function, sequence, initial), 参数 分 别 表 
示 用 来 进行 规约 的 函数 的 名 字 、 列 表 和 初始 值 ， 函 数 即 是 对 序列 的 每 一 步 所 应 用 的 函数 。 在 第 一 
步 ， 第 一 个 值 为 初始 值 ， 而 不 是 列表 的 第 一 个 元 素 。 


from functools import reduce 
print (reduce(add, sums, 0)) 


结果 为 25, 它 是 sums 列 表 中 每 个 元 素 的 和 , 也 就 是 原来 大 列表 a 中 每 个 二 级 列表 各 元 素 的 和 。 
上 面 代码 等 价 于 如 下 代码 。 


ta 寺 : 
current_result = initial 
for element in sums: 
current_result = add(current_result, element) 


我 们 这 个 小 例子 ,代码 很 简短 , 但 真正 的 好 处 是 可 以 使 用 分 布 式 计算 。 假如， 二 级 列表 的 数 
量 为 100 万 , 每 个 二 级 列表 包含 100 万 个 元 素 , 对 于 这 么 大 的 计算 任务 , 我 们 可 以 交 由 多 台 计 算 机 
完成 。 


为 了 实现 分 布 式 计算 , 我 们 可 以 在 映射 这 一 步 把 各 个 二 级 列表 及 函数 说 明 分 发 到 不 同 的 计算 
机 上 。 计 算 完成 后 ， 各 计算 机 把 结果 返回 主 计算 机 ( master )。 
然后 master 把 结果 发 送 给 另 一 台 计 算 机 做 规约 。 我 们 的 例子 有 100 万 个 二 级 列表 , 因此 可 以 将 


100 万 个 任务 交 给 不 es (计算 机 完成 映射 操作 后 , 可 再 次 用 于 规约 )。 返回 结果 为 包 
含 100 万 数字 的 列表 ， 然 后 就 可 以 进行 求 和 运算 。 


这 样 做 的 好 处 是 ， 尽 管 原始 数据 集 有 1 万 亿 数 字 ， 但 实际 计算 过 程 ， 哪 台 计 算 机 都 不 需要 存 
储 超过 100 万 个 数字 。 




























































































12.3.2 单词 统计 示例 


MapReduce 的 实现 比 起 单纯 使 用 映射 和 规约 两 步 要 复杂 些 。 这 两 步 都 用 键 来 调用 ,便于 数据 
的 区 分 和 值 的 跟踪 。 


映射 函数 接收 一 键 值 对 ,返回 键 值 对 列表 。 接 收 和 输出 的 键 不 一 定 要 彼此 相关 。 例如 , 统计 
单词 数量 的 MapReduce 程 序 , 输入 的 键 可 能 是 文档 编号 ， 而 输出 的 键 却 可 以 是 单词 。 输入 值 可 能 
是 文档 的 文本 内 容 ， 而 输出 值 为 每 个 单词 的 词 频 。 
























































from collections import defaultdict 
def map_word_ count (document_id, document): 


首先 , 计算 每 个 单词 词 频 。 在 这 个 简化 过 的 例子 中 , 我 们 先 根据 空格 把 文档 转换 成 单词 列表 ， 
当然 有 更 好 的 解决 方法 。 
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counts = defaultdict (int) 
for word in document.split(): 
counts[word] += 1 


遍历 每 个 单词 ， 统 计 次 数 ， 注 意 用 到 了 yiel6 语 句 。 用 MapReduce 的 术语 来 说 ， 单 词 为 键 ， 
单词 出 现 次 数 为 值 。 





for word in counts: 
yield (word, counts [word]) 


用 单词 做 键 ， 我 们 就 可 以 进行 shuffle 操 作 ， 把 每 个 键 所 有 值 聚集 到 一 起 。 
def shuffle words(results): 
首先 ， 把 每 个 单词 的 统计 结果 放 到 一 个 列表 中 。 

records = defaultdict (1ist) 


遍历 映射 函数 返回 的 所 有 结果 。 





for results in results_generators: 
for word, count in results: 
records [word] .append (count) 


接着 , 遍历 每 个 单词 ,创建 生成 带 ， 它 能 
表 这 两 项 。 





生成 (yield ) 单词 和 该 单词 在 各 文档 出 现 次 数 的 列 


for word in records : 
yield (word, records [word] ) 


最 后 一 步 是 规约 ， 接 收 一 键 值 对 值 为 列表 )， 输 出 另外 一 键 值 对 。 我 们 这 里 ， 键 为 单词 ， 
输入 的 列表 为 shuffle 后 得 到 的 作为 键 的 单词 在 不 同文 档 出 现 次 数 的 列表 ,输出 键 值 对 中 的 值 这 一 
项 为 单词 〈 键 ) 在 所 有 文档 的 出 现 次 数 之 和 。 





























def reduce_counts (word, list_of_counts): 
return (word, sum(list_of_counts)) 





我 们 使 用 scikit-1learn 提 供 的 来 自 20 个 新 闻 组 的 语 料 看 下 上 述 代 码 的 实际 效果 。 


from sklearn.datasets import fetch 20newsgroups 
dataset = fetch 20newsgroups (subset='train') 
documents = dataset.data 


然后 执行 映射 操作 , 这 里 用 enumerate 函 数 自动 为 文档 生成 编号 。 编号 这 里 用 处 不 大 , 但 是 
在 其 他 应 用 中 很 重要 。 




















map_results = map (map_word_ count, enumerate (documents)) 





上 述 结果 只 是 生成 器， 而 不 是 实际 的 统计 结果 。 也 就 说 ， 它 是 能 输出 键 值 对 〈 单 词 、 出 现 次 
数 ) 的 生成 句 。 
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接着 ， 对 生成 器 进行 shuffle 操 作 ， 根 据 单词 出 现 次 数 进行 排序 。 
shuffle_results = shuffle words (map_results) 


上 述 例 子 本 质 上 来 说 是 一 个 MapReduce 任 务 ; 然 而 由 于 只 使 用 单线 程 ,我 们 无 法 从 MapReduce 
数据 格式 中 获得 任何 好 处 。 下 节 ， 我 们 将 使 用 开源 的 MapReduce 架 构 Hadoop， 实 现 分 布 式 计算 ， 
提升 性 能 。 


12.3.3 Hadoop MapReduce 


Hadoop 是 Apache 基 金 会 所 提供 的 一 组 包括 MapReduce 在 内 的 开源 工具 。 人 们 实际 使 用 的 
MapReduce 架 构 也 多 是 它 。Hadoop 项 目 由 Apache 基 金 会 管理 (他 们 也 负责 维护 著名 的 Web 服 务 器 
软件 Apache )。 


Hadoop 生 态 系 统 很 复杂 ， 有 大 量 的 工具 。 我 们 将 要 用 到 的 主要 组 件 为 Hadoop MapReduce。 
Hadoop 其 他 处 理 大 数据 的 工具 有 如 下 几 种 。 


口 Hadoop 分 布 式 文件 系统 ( Hadoop Distributed File System， HDFS ): 该 文件 系统 可 以 将 文 
件 保存 到 多 台 计 算 机 上 ， 以 防范 硬件 故障 ， 提 高 带宽 。 

口 YARN: 用 于 调度 应 用 和 管理 计算 机 集群 。 

口 Pig: 用 于 MapReduce 的 高 级 语言 。Hadoop MapReduce 用 Java 语 言 实 现 ，Pig 对 Java 实 现 做 
进一步 封装 ， 支 持 用 其 他 语言 来 编写 程序 一 一 包括 Python。 

D Hive: 用 于 管理 数据 仓库 和 进行 查询 。 

口 HBase: 对 谷歌 分 布 式 数据 库 BigTable 的 一 种 实现 。 


这 些 工 具 都 是 用 来 解决 包括 分 析 过 程 在 内 的 大 数据 实验 所 能 遇 到 的 各 种 问题 。 


还 有 其 他 一 些 没 有 使 用 Hadoop 工 具 集 实现 的 MapReduce 框 架 ， 也 有 一 些 具 有 相似 目标 的 项 
目 。 此 外 ， 很 多 云 平台 都 提供 以 MapReduce 为 基础 的 系统 。 



























































12.4 ”应 用 

我 们 来 建立 一 个 根据 博 主 用 词 习惯 判断 博 主 性 别 的 应 用 。 我 们 用 MapReduce 方 法 训练 朴素 贝 
叶 斯 分 类 器 。 最 后 用 模型 做 预测 时 ,不 需要 MapReduce， 虽然 我 们 可 以 用 映射 这 个 步骤 一 一 也 就 
是 对 列表 中 的 每 一 篇 文档 运行 预测 模型 。 这 是 用 MapReduce 进 行 数据 挖掘 常用 的 映射 操作 ,规约 
步骤 只 用 来 调整 预测 结果 列表 ， 以 便 把 结果 和 原文 档 对 应 起 来 。 


我 们 将 使 用 亚马逊 云 平台 运行 应 用 ， 以 利用 它们 的 计算 资源 。 
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12.4.1 获取 数据 


我 们 使 用 2004 年 8 月 份 从 http://blogger.com 网 站 采集 的 60 多 万 篇 博客 文章 作为 数据 集 , 这 些 文 
章 共 有 1.4 亿 多 个 单词 , 每 篇 文章 都 标注 了 博 主 的 年 龄 、 性 别 、 行业 (工作 ),， 有 趣 的 是 还 有 星座 。 
研究 人 员 曾 进行 过 部 分 验证 ,确保 同一 篇 博客 从 头 到 尾 均 由 一 名 博 主 所 写 ( 虽然 也 不 是 很 确定 )。 
每 篇 博客 还 给 出 了 发 表 时 间 ， 这 个 数据 集 的 内 容 真 是 挺 丰富 的 。 


访问 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm 网 站 ， 点 击 Download Corpus。 下 载 完 成 后 ， 
把 数据 集 文 件 解压 到 你 的 本 地 计算 机 数据 文件 夹 Data 里 。 


数据 集中 , 一 个 博 主 的 所 有 博客 放 到 同一 个 文件 里 , 文件 名 包含 博 主 的 相关 信息 。 例如， 其 
中 一 个 文件 名 如 下 : 


1005545.male.25.Engineering.Sagittarius.xml 
文件 名 用 点 号 分 隔 ， 主 要 包括 以 下 信息 。 


口 博客 编号 : 标识 博客 唯一 性 的 数值 。 

口 性 别 : 该 部 分 不 是 male ( 男性 ) 就 是 female ( 女性 )。 数 据 集 只 包含 这 两 种 情况 。 

口 年 龄 : 给 出 确切 的 年 龄 ， 但 有 时 会 特意 使 用 年 龄 段 。 年 龄 段 (包含 起 止 年 龄 ) 有 13~17、 
23~27 和 33~48。 这 样 做 是 便于 把 难以 确定 博 主 年 龄 的 博客 粗略 归 到 某 一 年 龄 段 中 ， 因 为 
很 难 把 18 岁 写 的 博客 和 19 岁 所 写 的 区 分 开 来 ， 此 外 ， 当 你 使 用 这 些 数据 时 ， 博 主 实际 年 
龄 可 能 比 早先 填写 的 又 长 了 几 岁 ， 因 此 需要 做 相应 调整 。” 

口 行业 : 包括 和 科学、 工程、 艺术 、 房 地 产 在 内 的 40 种 行业 的 其 中 一 种 ， 若 博 主 没有 填写 该 

项 ， 使 用 indUnks 来 表示 。 

口 星座 ， 12 星座 之 一 。 


所 有 的 这 些 数据 都 是 用 户 自 己 提供 的 , 这 就 表明 其 中 有 错误 或 不 一 致 现象 , 但 是 绝 大 多 数 是 
可 靠 的 一 一 如 果 用 户 为 了 保护 个 人 隐私 起 见 ,不 想 透 露 某 方面 的 信息 ,他 们 可 以 选择 不 填 , 这 一 
点 网 站 是 允许 的 。 


每 个 文件 的 格式 类 似 于 XML ， 包 含 <Blog> 标 签 和 一 系列 <post> 标 签 。 每 个 <post> 标 签 前 
都 有 一 个 <aate> 标 签 。 虽 然 我 们 可 以 把 它 当 作 XML 来 处 理 ， 但 是 按 行 处 理 更 容易 ， 因 为 它 不 是 
真正 规范 的 XML 文件 ， 并 且 还 有 些 错误 (大 部 分 是 编码 错误 )。 我 们 可 以 使 用 循环 结构 遍历 文件 
中 的 每 一 行 ， 以 读 取 博 客 内容 。 


指定 一 个 文件 名 ， 我 们 来 实际 看 下 。 











































































































































































































G@) 作者 给 我 举 了 个 例子 ,“ 去 年 用 户 发 表 博 客 时 为 18 岁 ,今年 就 19 岁 了 ， 我 需要 在 模型 中 做 相应 调整 。 ”一 一 译 者 注 
@ industry unknown 的 简写 。 一 一 译 者 注 
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import os 
filename = os.path.join(os.path.expanduser ("~"), "Data", "blogs", 


"1005545.male.25.Engineering.Sagittarius.xml") 
首先 ,创建 用 于 存储 每 篇 博客 的 列表 。 


all_posts = [] 


然后 ， 打 开 要 读 取 的 文件 。 





with open(filename) as inf: 


设置 标识 是 否 在 博客 中 的 标记 。 找 到 博客 开始 标签 <post> 后 ， 将 标记 的 值 设置 为 True， 表 
示 找 到 了 博客 的 开始 位 置 。 找 到 关闭 标签 </post> 后 ， 将 标记 的 值 设置 为 False。 











post_start = False 

创建 用 于 存储 博客 当前 行内 容 的 列表 。 
post = 1] 

遍历 文件 的 每 一 行 ， 删 除 该 行 前 后 的 空格 。 


for line in inf: 
line = 1ine.strip() 


照 前 面 所 说 ， 找 到 博客 的 开始 、 关 闭 标签 后 ， 更 改 标记 post_start 的 值 。 








Tf Lie "HOSt > 
post_start = True 
lf LIne es. Te/DOStS™: 


post_start = False 
找到 关闭 标签 </post> 后 ， 记 录 刚 找到 的 这 一 篇 博客 的 所 有 内 容 。 创 建新 的 post 列 表 。 下 面 
两 行 代码 的 缩 进 字符 数 与 前 一 行 代码 相同 。 
all_posts.append("\n".join(post)) 
post = [] 
最 后 ， 如 果 该 行 不 是 博客 结尾 ， 也 就 是 还 在 博客 里 面 ， 把 这 一 行 加 到 当前 博客 post 列 表 的 
最 后 。 











elif post_start: 
post.append (line) 


如 果 没 有 在 博客 中 ， 和 忽略 这 一 行 。 
可 以 像 下 面 这 样 获取 每 篇 博客 的 文本 内 容 。 
print (all_posts[0]) 


我 们 还 可 以 计算 出 一 位 博 主 共 发 表 了 多 少 博客 。 
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print (len(all_posts)) 


12.4.2 ”朴素 贝 叶 斯 预测 


我 们 来 实现 朴素 贝 叶 斯 算法 ( 从 技术 上 讲 , 这 是 一 个 简化 的 版 本 , 复杂 实现 通常 有 很 多 特征 ) 
处 理 博客 博 主 性 别 分 类 问题 。 


1. mrjob 包 


巴 用 mrjob 创 建 的 MapReduce 任 务 推送 到 亚马逊 云 平台 上 很 容易 .mrjob 听 上 去 有 点 像 奇 先生 ” 
系列 儿童 故事 书 的 画蛇添足 之 作 ， 实 则 表示 映射 规约 任务 ( Map Reduce Job )。 这 个 包 很 有 用 ， 
但 是 写作 本 书 时 ， 对 Python 3 的 支持 还 不 成 熟 ， 对 我 们 后 面 要 讲 到 的 亚马逊 EMR 服 务 支持 也 不 
够 好 。 





























car 














你 可 以 使 用 下 面 命令 安装 mrjob 的 Python 2 版 本 : 


| sudo pip2 install mrjob 


注意 使 用 pip2 而 不 是 pip3。 





本 质 上 讲 ，mrjob 提 供 了 大 部 分 MapReduce 任 务 所 需 的 标准 功能 。 最 邻 人 惊异 的 特性 是 ， 你 
可 以 编写 同一 套 代 码 , 既 能 在 没有 安装 Hadoop 的 本 地 计算 机 上 进行 测试 , 测试 完 后 , 还 可 以 直接 
把 代码 提交 到 亚马逊 的 EMR 或 其 他 Hadoop 服 务 器 上 。 

这 样 , 测试 起 代码 来 很 容易 , 虽然 它 也 不 可 能 神奇 地 把 大 问题 变 成 小 问题 一 一 注意 任何 本 地 
测试 ， 只 是 使 用 一 小 部 分 而 不 是 全 部 数据 。 


2. 抽取 博客 内 容 


首先 创建 一 个 MapReduce 程 序 ， 从 每 位 博 主 的 博客 文件 中 抽取 所 有 博客 ,分 别 存储 。 因 为 最 
终 要 预测 博 主 的 性 别 ， 我 们 还 需要 抽取 性 别 信 息 ， 跟 博客 一 起 存储 。 


我 们 这 回 没 法 用 笔记 本 文件 ， 因 此 使 用 Python IDE 进 行 开发 。 如 果 你 没有 装 Python IDE ( 比 
如 PyCharm )， 你 可 以 使 用 文本 编辑 器 。 建 议 你 使 用 具有 代码 高 亮 功 能 的 IDE。 



























































AI 如 果 你 找 不 到 好 用 的 IDE， 你 可 以 在 笔记 本 文件 中 编写 代码 ， 然 后 点 击 (或 
Q 选择 ) File | Download As | Python 把 代码 保存 成 .py 文件 ， 然 后 再 运行 。 第 11 章 提 
到 过 这 种 方法 。 















































加 英国 儿童 文学 作家 罗 杰 " 哈 格 里 维 斯 (Roger Harereaves ) 为 儿童 创 作 的 《 奇 先生 妙 小 姐 ) 系列 图 书 中 的 人 物 形 象 ， | 
比如 有 荒唐 先生 、 傲 慢 先 生 、 通 遇 先 生 等 。__ 译 者 注 
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因为 需要 获取 环境 变量 ， 我 们 会 用 到 os ， 单 词 拆 分 时 会 用 到 正则 表达 式 ， 一 并 导入 re。 


import os 
import re 


接着 导入 MRJob 类 ， 我 们 的 MapReduce 任 务 继承 自 它 。 
from mrjob.job import MRJOb 

然后 创建 MRJob 的 子 类 。 

class ExtractPosts (MRJob) : 


我 们 使 用 跟 之 前 类 似 的 循环 从 文件 中 抽取 博客 内 容 。 我 们 即将 定义 的 映射 函数 将 处 理 每 一 
行 ， 跟 中 不 同 博客 的 任务 要 在 映射 函数 外 完成 。 因 此 ， 在 函数 外 而 不 是 在 函数 内 部 声明 


县 


post_start 和 post 两 个 变量 。 











post_start = False 
post = [] 


然后 创建 映射 函数 一 一 从 文件 中 取 一 行 作为 输入 , 最 后 生成 一 篇 博客 的 所 有 内 容 。 每 一 行 都 
来 自 同一 任务 所 在 处 理 的 文件 。 这 样 ， 我 们 就 可 以 使 用 上 面 创建 的 变量 保存 当前 博客 的 内 容 。 








def mapper (self, key, line): 


开始 采集 博客 内 容 之 前 ， 我 们 还 要 获取 到 博 主 的 性 别 。 虽 然 通常 我 们 不 会 把 文件 名 作为 
MapReduce 任 务 的 一 部 分 ,但 是 这 里 确实 要 用 到 。 当 前 的 文件 名 称 以 环境 变量 的 形式 存储 ， 用 下 
面 代码 就 能 获取 到 。 





filename = os.environ["map_input_file"] 


用 点 号 切 分 文件 名 ,获取 性 别 ( 第 二 个 字符 串 )。 





gender = filename.split(".")[1] 
删除 一 行 开头 和 结尾 处 的 空格 〈 博客 中 空格 很 多 )， 然 后 查找 文件 开头 和 结尾 。 


line = line.strip() 

if line == "<post>": 
self.post_start = True 

ETTE Jine Es <] 区 GOSE 
self.post_start = False 


之 前 我 们 把 博客 保存 到 列表 里 ， 而 这 次 我 们 用 yiela， 便 于 mrjob 跟 踪 输 出 : 博 主 性 别 和 博 
客 内 容 , 这 样 博 主 性 别 和 博客 就 能 一 一 对 应 起 来 。 函数 余下 部 分 跟前 面 用 到 的 循环 中 的 代码 一 致 。 











yield gender, repr("\n".join(self.post)) 
SelTf Bost sa:] 

elif self.post_start: 
self.post.append (line) 


12.4 应 用 217 








最 后 ， 在 函数 和 类 的 外 面 ， 编 写 下 面 语 句 ， 以 便 从 命令 行 运行 代码 时 执行 MapReduce 任 务 。 














下 name., == ' main 
ExXtractPosts.run() 


现在 ， 可 以 在 命令 行 输 入 下 面 的 shell 命 令 运行 MapReduce 任 务 。 注 意 使 用 Python 2 而 不 是 
Python 3。 








python extract_posts.py <your_data_folder>/blogs/51* --output-— 
dir=<your_data_folder>/blogposts -no-output 





A 


第 一 个 参数 <your_data_folder>/blogs/51* ( 注意 把 <your_qdata_folgder> 替 换 为 你 
的 数据 文件 夹 的 全 路 径 ) 指定 所 使 用 的 数据 集 (所 有 以 51 开 始 的 文件 ， 只 有 11 个 )。 接 着 指定 输 
出 文件 夹 ， 即 用 来 保存 博客 内 容 的 文件 夹 。 最 后 指定 不 要 在 命令 行 输出 内 容 。 否 则 ,程序 运行 期 
间 ， 输 出 的 数据 将 显示 在 命令 行 一 一 对 我 们 来 说 没 多 大 用 处 ， 还 会 降低 程序 运行 速度 。 


运行 上 述 代 码 , 每 篇 博客 内 容 很 快 就 会 被 抽取 出 来 并 保存 到 指定 的 输出 文件 夹 。 在 本 地 计算 
机 上 ， 只 使 用 一 个 线程 ， 所 以 速度 提升 有 限 ， 但 是 我 们 知道 代码 确实 可 以 运行 了 。 


我 们 看 下 输出 文件 夹 , 里 面 有 有 一 系列 文件 ,文件 的 每 一 行为 博 主 的 性 别 及 一 篇 博客 的 内 容 。 
3. 训练 朴素 贝 叶 斯 分 类 器 


既然 已 经 抽取 了 博客 内 容 , 接 下 来 就 可 以 用 它们 训练 朴素 贝 叶 斯 模型 。 根 据 直觉 , 我 们 可 以 
这 样 做 , 分 别 统计 女性 博 主 和 男性 博 主 使 用 每 个 单词 的 概率 。 对 博客 进行 分 类 时 , 我 们 分 别 计算 
博客 " 博 主 为 女性 的 概率 和 博 主 为 男性 的 概率 ， 选 取 概 率 较 大 的 ， 作 为 最 终 类 别 。 


我 们 来 编写 代码 , 输出 所 有 文件 中 每 个 单词 及 女 博 主 和 男 博 主 使 用 该 词 的 频率 。 输 出 文件 如 
下 所 示 : 


"'ailleurs" {"female": 0.003205128205128205} 

"'air" {"female": 0.003205128205128205} 

"an" {"male": 0.0030581039755351682, "female": 0.004273504273504274} 
"'angoisse" {"female": 0.003205128205128205} 

"'apprendra" {"male": 0.0013047113868622459, "female": 
.0014172668603481887} 
'attendent" {"female": 0.00641025641025641} 
"'autistic" {"male": 0.002150537634408602} 
"'auto" {"female": 0.003205128205128205} 
"'avais" {"female": 0.00641025641025641} 
"'avait" {"female": 0.004273504273504274} 
"'behind" {"male": 0.0024390243902439024} 
"pout" {"female": 0.002034152292059272} 
















































































宇 1 时 




















中 一 篇 博客 ,其 博 主 为 女性 的 概率 有 多 大 ?计算 方法 为 ， 从 语 料 中 统计 到 该 博客 中 每 个 单词 出 现在 女 博 主 所 写 博客 


























中 的 概率 ， 然 后 求 出 这 些 概率 的 积 。 其 中 会 涉及 到 数值 下 溢 、 博 客 中 某 一 单词 在 语 料 中 没有 出 现 等 问题 ,这 些 问 | 





题 需要 特殊 处 理 。 下 文 也 会 讲 到 。 





译 者 注 
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输出 结果 每 一 行 的 第 一 个 值 为 单词 , 第 二 值 为 一 个 字典 , 字典 的 键 为 性 别 , 字典 的 值 为 给 定 
性 别 使 用 该 词 的 频率 。 


用 Python IDE 或 文本 编辑 兢 新 建 一 个 文件 ， 再 次 要 用 到 os 和 re， 除 此 之 外 还 要 用 到 NumPy 
和 MRJob。 因 为 要 对 字典 进行 排序 ， 所 以 还 用 到 itemgetter。 





























import os 

import re 

import numpy as np 

from mrjob.job import MRJOb 
from operator import itemgetter 


我 们 还 需要 用 MRStep 管 理 MapReduce 中 的 每 一 步 操作 。 前 面 的 MapReduce 任 务 只 有 由 映射 函 
数 和 规约 函数 组 成 的 一 个 步骤。 我 们 当前 这 个 任务 分 三 步 : 映射 、 规 约 、 再 次 映射 和 规约 。 是 不 
是 感觉 跟前 几 章 我 们 用 到 的 流水 线 一 样 ， 前 一 步 的 输出 将 作为 下 一 步 的 输入 。 





























from mrjob.step import MRStep 


接着 创建 用 于 匹配 单词 的 正则 表达 式 ， 并 对 其 进行 编译 , 我们 用 它 来 查找 单词 的 边界 。 这 种 
类 型 的 正则 表达 式 比 起 前 面 用 过 的 split 方 法 更 加 强大 ， 如 果 你 需要 更 加 精确 的 单词 切 分 工具 ， 
建议 你 使 用 第 6 章 用 到 的 NLTK 库 。 





























word_search re = re.compile(r"[\w']+") 


创建 一 个 新 类 ， 用 于 训练 朴素 贝 叶 斯 分 类 器 














class NaiveBayesTrainer (MRJob): 


定义 MapReduce 任 务 的 各 个 步骤 ， 一 共 分 为 两 步 。 第 一 步 抽取 单词 出 现 的 概率 。 第 二 步 ， 比 
校 _ 个 单词 在 男女 博 主 所 写 博客 出 现 的 概率 ,选择 概率 大 的 性 别 作为 分 类 结果 , 写 入 输出 文件 。 
在 上 述 每 一 步 (MRStep ) 中 , 定义 映射 和 规约 函数 ,它们 是 NaiveBayesTrainer 类 里 面 的 方法 
(后续 会 编写 这 两 个 函数 )。 
def steps (self): 
return [ 
MRStep (mapper=self.extract_words_mapping, 
reducer=self.reducer_count_words), 


MRStep (reducer=self.compare_ words_reducer), 


] 
一 个 函数 是 第 一 步 中 的 映射 函数 。 这 个 函数 的 目标 是 接收 一 条 博客 数据 ,获取 里 面 的 所 有 
单词 ， 因 为 我 们 想 要 得 到 单词 的 频率 ， 所 以 每 个 单词 返回 1 / len (all_words), 便于 后 面 加 
总 求 词 频 。 这 样 计 算 并 不 精确 一 一 我 们 需要 根据 文档 数量 做 归 一 化 处 理 。 但 由 于 数据 集中 两 个 类 
别 的 文档 数 相 同 ， 因 此 不 做 归 一 化 处 理 对 最 终结 果 影 响 也 很 小 。 


输出 博 主 的 性 别 ， 后 面 会 用 到 。 
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def extract_ words_ mapping (self, key, value): 

tokens = value.split() 

gender = eval (tokens[0]) 

blog_post = eval(" ".join(tokens[1:])) 

all_words word_search re.findall (blog_post) 

all_words = [word.lower() for word in all_ words] 
all_words = word_search re.findall (blog_post) 
all_words = [word.lower() for word in all_ words] 
for word in all_words: 

yield (gender, word), 1. / lenl(all words) 


上 面 代码 使 用 eval 函 数 简化 对 每 条 博客 数据 的 处 理 ， 直 接 把 字符 串 转 换 为 

> Python 列 表 ， 但 不 建议 这 么 做 。 相 反 ， 应 该 使 用 JSON 等 格式 存储 数据 ， 然 后 用 

S 相应 包 进 行 解析 。 如 果 在 访问 数据 集 的 代码 中 使 用 eval 语 名， 攻击 者 可 借 此 插 
入 恶意 代码 ， 并 在 你 的 服务 器 上 运行 。 





在 第 一 步 的 规约 函数 中 , 汇总 每 个 性 别 使 用 每 个 单词 的 频率 。 我 们 还 把 键 改 为 单词 ， 而 不 是 
单词 和 性 别 的 组 合 ， 因 为 在 最 后 训练 得 到 的 模型 中 , 我 们 要 根据 单词 进行 查询 (虽然 还 要 输出 性 
别 以 供 后 面 使 用 )。 


def reducer_count words (self, key, frequencies): 
s = sum(frequencies) 
gender, word = key 
yield word, (gender, s) 


最 后 一 步 不 需要 映射 函数 , 因此 我 们 就 没有 添加 它 。 数据 将 作为 一 致 性 映射 (identity mapper ) 
类 型 直接 传人 到 规约 函数 中 , 而 规约 函数 将 会 把 每 个 单词 在 所 有 文章 中 出 现 频率 按照 性 别 汇集 到 
一 起 ， 输 出 单词 及 频率 字典 。 


这 正 是 朴素 贝 叶 斯 分 类 器 所 需要 的 信息 。 


def compare_ words_reducer (self, word, values): 
per_gender = {} 
for value in values: 
gender, s = value 
per_genderlgender] = S 
yield word, per_gender 


最 后 ， 添 加 以 下 代码 ， 以 便 直接 运行 代码 时 ， 训 练 朴素 贝 叶 斯 模型 。 


i name., ma 
NaiveBayesTrainer.run() 


运行 上 述 代 码 , 它 的 输入 即 是 前 面 博客 抽取 代码 的 输出 (实际 上 可 以 把 它们 作为 前 后 相连 的 
步 又， 放 到 同一 个 MapReduce 任 务 中 )。 
Python nb_train.py <your_data_folder>/blogposts/ 


--output-dir=<your_data_folder>/models/ 
一 














让 
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上 述 代码 运行 结束 后 ， 该 MapReduce 任 务 的 输出 结果 保存 到 位 于 输出 文件 夹 中 的 一 个 文件 
里 ,输出 结果 为 运行 朴素 贝 叶 斯 分 类 器 所 需 的 概率 信息 。 


4. 组 装 起 来 
我 们 现在 就 可 以 使 用 这 些 概 率 来 运行 贝 叶 斯 分 类 器 。 我们 将 在 笔记 本 文件 里 编写 代码 , 可 以 
再 次 使 用 Python 3 时 ! 


首先 ， 查 看 上 一 个 MapReduce 任 务 所 生成 的 模型 文件 夹 。 如 果 输 出 文件 多 于 一 个 ,在 命令 行 
切换 到 模型 文件 夹 下 ， 使 用 下 面 命令 把 它们 追加 到 modeltxt 后 面 。 

































































cat * > model.txt 
运行 上 述 命令 后 ， 记 得 把 下 面 用 到 的 模型 所 在 的 文件 名 改 为 model.txt。 
回 到 笔记 本 文件 ， 导 入 接 下 来 会 用 到 的 几 个 包 。 


import os 

import re 

import numpy as np 

from collections import defaultdict 
from operator import itemgetter 

















重新 定义 用 于 查找 单词 的 正则 表达 式 一 一 在 实际 应 用 中 , 不 要 忘记 这 点 , 注意 训练 和 测试 时 
应 该 使 用 相同 的 正则 表达 式 来 抽取 单词 。 
word_search_ re = re.compilel(r"[\w']+") 





接着 ,声明 从 指定 文件 名 中 加 载 模型 的 函数 。 
def load_ model (model_filename): 


模型 的 参数 是 一 个 元 素 为 字典 的 字典 ， 各 元 素 的 键 为 单词 , 值 ( 内 部 字典 ) 为 由 每 个 性 别 及 
其 概率 组 成 的 键 值 对 。 我 们 使 用 defaultaict， 如 果 键 不 存在 的 话 ， 将 返回 0。 








model = defaultdict (lambda: defaultdict (float)) 


打开 模型 所 在 文件 ， 解 析 每 一 行 。 





with open(model_filename) as inf: 
fOr Line Ti TEs 


用 空格 作为 分 隔 符 , 将 模型 的 每 一 行 切 分 成 两 部 分 。 第 一 部 分 为 单词 自身 , 第 二 部 分 为 概率 
字典 。 对 于 每 一 部 分 ， 使 用 eval 函数 获得 实际 的 值 ， 它 们 之 前 是 使 用 repr 函 数 存 储 的 。 

















word, values = line.split (maxsplit=1) 
word = eval (word) 
values = eval (values) 
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在 模型 中 ， 为 单词 和 概率 字典 建立 起 映射 关系 。 


model [word] = values 
return model 


接着 ， 加载 实 际 的 模型 。 你 可 能 需要 修改 模型 的 文件 名 一 一 它 存储 在 上 一 个 MapReduce 任 务 
的 输出 文件 夹 中 。 

model_filename = os.path.join(os.path.expanduser ("~"), "models", 

"part-00000") 

model = load model (model_filename) 

举例 来 说 , 我 们 可 以 像 下 面 这 样 查看 不 同性 别 使 用 单词 i ( 执行 MapReduce 任 务 时 , 所 有 单词 
中 的 字母 全 部 转换 为 小 写 ) 的 情况 。 

model["i"]["male"], model["i"]["female"] 

接着 ,创建 使 用 模型 做 预测 的 函数 。 这 里 我 们 不 再 使 用 scikit-learn 接 口 ， 只 是 创建 一 
个 简单 的 函数 。 这 个 函数 接收 模型 和 一 篇 文档 作为 参数 ， 返 回 对 博 主 性 别 的 预测 结果 ， 函 数 声 
明 如 下 : 
































def npb_predict (model, document): 
先 来 创建 一 个 字典 ， 键 值 分 别 为 每 个 性 别 及 概率 "。 
probabilities = defaultdict (lambda : 1) 


从 文档 中 抽取 每 一 个 单词 。 











words = word_ search re.findall (document) 
遍历 每 一 个 单词 ， 找 出 数据 集中 每 个 性 别 使 用 该 单词 的 概率 。 


for word in set (words): 
probabilities["male"] += np.log (model[word] .get ("male", le- 








15)) 
probabilities["female"] += np.log(model [word] .get ("female", 
Te=15)) 


根据 概率 对 性 别 进行 排序 ， 以 概率 最 高 的 性 别 作为 预测 结果 返回 。 


most_likely_genders = sorted(probabilities.items(), 
key=itemgetter(1), reverse=True) 
return most_likely_genders[0]1[0] 


注意 ,我 们 使 用 np . 1og 计 算 概率 。 朴 素 贝 叶 斯 模型 中 ， 概 率 值 往往 很 小 。 把 这 些 很 小 的 数 
连 乘 起 来 会 导致 数值 下 溢 ， 由 于 计算 机 精度 不 够 ， 最 终结 果 将 为 0。 在 我 们 这 里 ， 就 会 出 现 博 主 



























































GD 不 同性 别 用 词 有 自己 的 偏好 。 此 处 的 概率 指 的 是 ， 待 预测 文档 每 一 个 单词 由 给 定性 别 所 使 用 的 概率 的 乘积 。 
一 译 者 注 
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为 男性 或 女性 的 概率 都 为 0 的 情况 ， 预 测 结果 自然 不 正确 。 


为 了 解决 数值 下 溢 问 题 ， 我 们 使 用 对 数 概率 。 对 于 两 个 数 a 和 b，1log (a,b) 等 于 log (a) + 
log (b) 。 数 值 很 小 的 数 取 对 数 ， 得 到 一 个 负数 ， 但 相对 还 比较 大 。 例 如 1og (0.00001) 约 等 于 
-11.5。 这 表明 与 其 冒 着 数值 下 溢 的 风险 ， 把 多 个 概率 连 乘 ， 还 不 如 使 用 对 数 概率 求 和 ， 然 后 比 
较 两 类 的 和 ( 和 越 大 ， 可 能 性 越 高 )。 


使 用 对 数 概率 有 个 问题 就 是 无 法 处 理 0 值 ( 虽然 ， 把 多 个 为 0 的 概率 连 乘 也 不 能 解决 这 个 问 
题 )。 这 是 因为 1og(0) 没 有 定义 。 有 些 朴素 贝 叶 斯 算法 ， 为 每 个 特征 的 计数 都 加 1 以 避免 出 现 这 
个 问题 ， 当 然 还 有 别 的 解决 方法 。 加 一 平滑 是 一 种 很 简单 的 数据 平滑 方法 。 我 们 这 里 如 果 某 个 单 
词 给 定性 别 没有 人 用 过 ， 就 给 它 赋 一 个 很 小 的 概率 值 。 


再 回 到 我 们 的 预测 函数 ， 我 们 从 数据 集中 复制 一 篇 博客 来 做 下 测试 。 


new_post = """ Every day should be a half day. Took the afternoon 

off to hit the dentist, and while I was out I managed to get my oil 
changed, too. Remember that business with my car dealership this 
winter? Well, consider this the epilogue. The friendly fellas at the 
Valvoline Instant Oil Change on Snelling were nice enough to notice 
that my dipstick was broken, and the metal piece was too far down in 
its little dipstick tube to pull out. Looks like I'm going to need a 
magnet. Damn you, Kline Nissan, daaaaaaammmnnn yooouuuu.... Today 
I let my boss know that I've submitted my Corps application. The news 
has been greeted by everyone in the company with a level of enthusiasm 
that really floors me. The back deck has finally been cleared off 
by the construction company working on the place. This company, for 
anyone who's interested, consists mainly of one guy who spends his 
days cursing at his crew of Spanish-speaking laborers. Construction 
of my deck began around the time Nixon was getting out of office. 
























































用 下 面 代码 进行 分 类 。 
nb_predict (model, new_post) 


分 类 结果 为 男性 ， 分 类 正确 。 当 然 ， 千 万 不 要 只 用 一 条 数据 进行 测试 。 我 们 只 使 用 文件 名 以 
51 打 头 的 文档 来 训练 模型 ， 所 以 不 要 指望 有 太 高 的 正确 率 。 


当务之急 是 用 更 多 的 文档 来 训练 模型 。 我 们 使 用 所 有 文件 名 以 6 或 7 打头 的 文档 做 测试 ,在 剩 
余 文 档 上 进行 训练 。 


使 用 命令 行 ， 切换 到 博客 文档 所 在 的 文件 夹 (cq <your_data_folder> )， 复制 文档 到 新 
文件 夹 中 。 


创建 训练 集 文件 夹 。 

















mkdir blogs_train 
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然后 ， 创 建 测 试 集 文 件 夹 。 
mkdir blogs_test 
上 所 有 文件 名 以 6 或 7 打 尖 的 文档 从 训练 集 文件 夹 移动 到 测试 文件 夹 。 


cp blogs/6* blogs_ train/ 
cp blogs/7* blogs_ train/ 


我 们 需要 返回 训练 集中 所 有 博客 的 抽取 结果 。 然 而 , 计算 量 很 大 , 最 好 使 用 云 平台 而 不 是 本 
地 计算 机 处 理 这 个 任务 。 因 此 ， 我 们 接 下 来 使 用 亚马逊 云 平台 解析 博客 内 容 。 








car 















































跟 之 前 一 样 ,在 命令 行 运行 下 面 代码 。 唯 一 的 不 同 点 是 训练 集 所 在 的 文件 夹 路 径 。 运 行 代码 
前 ,删除 用 于 存储 抽取 结果 和 模型 文件 夹 中 的 所 有 文件 。 








Python extract_posts.py ~/Data/blogs_train --output-dir=/home/bob/ 
Data/blogposts -no-output 


Python nb _ train.py ~/Data/blogposts/ --output-dir=/home/bob/models/ 
OO 


上 述 代码 运行 时 间 较 长 。 


我 们 使 用 测试 集中 的 所 有 博客 进行 测试 。 我 们 使 用 extract_posts .py MapReduce 任 务 抽 
取 博 客 内 容 ， 但 是 记得 把 抽取 结果 保存 到 另外 一 个 文件 夹 中 。 




















Python extract_posts.py ~/Data/blogs_test --output-dir=/home/bob/Data/ 
blogposts_testing -no-output 


回 到 笔记 本 文件 ， 获 取 到 输出 的 所 有 测试 文档 的 路 径 。 


testing_folder = os.path.join(os.path.expanduser ("~"), "Data", 
"blogposts_testing") 
testing_filenames = [] 


for filename in os.listdir(testing_ folder): 
testing_filenames.append(os.path.join(testing_ folder, filename)) 


对 于 上 面 输出 的 每 一 篇 测试 文档 , 我 们 抽取 博 主 性 别 和 博客 内 容 , 然后 调用 预测 函数 进行 分 


类 。 因 为 文档 数量 很 多 ,我 们 不 想 占 用 太 多 内 存 ,， 所 以 使 用 生成 器 来 处 理 。 生 成 器 会 给 出 实际 性 
别 和 预测 结果 。 














def nb predict many (model, input_filename): 
with open(input_filename) as inf: 

# remove leading and trailing whitespace 

for Tine in inf: 
tokens = line.split() 
actual_gender = eval (tokens[0]) 
blog_post = eval(" ".join(tokens[1:])) 
yield actual_gender, nb_predict (model, blog_post) 


然后 我 们 记录 测试 集中 所 有 数据 的 预测 结果 和 实际 性 别 。 预测 结果 不 是 男性 就 是 女性 。 为 了 
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使 用 scikit-learn 的 f1_socre 函 数 ， 我 们 需要 把 预测 结果 转换 为 0 或 1， 如 果 结 果 为 男性 ， 我 
们 记录 0， 反之 为 1。 我 们 使 用 布尔 测试 ,判断 性 别 是 否 为 女性 ,然后 使 用 NumPy 把 布尔 值 转换 为 


整 型 ( int )。 








y_true = [] 
VY DFEd EL 
for actual_gender, predicted gender in nb predict many (model, testing_ 
filenames[0]): 
y_true.append 
y_pred.append 
Y_true = np.array 
y_pred = np.array 


actual_gender == "female") 
predicted gender == "female") 
y_true, dtype='int') 

y_pred, dtype='int') 


现在 ,我 们 使 用 scikit-learn 中 的 F1 值 评估 分 类 结果 。 


from sklearn.metrics import f1_score 
print ("fl1={:.4f}".format (fi1_scorel(ly_true, y_pred, pos_label=None))) 


结果 为 0.78， 还 算 可 以 。 我 们 使 用 更 多 的 数据 也 许 能 改善 分 类 效果 。 但 是 ， 我 们 需要 使 用 更 
强大 的 云 平台 才能 处 理 更 多 数据 。 


5. 在 亚马逊 EMR 云 平台 上 训练 模型 


我 们 接 下 来 使 用 亚马逊 的 EMR ( Elastic Map Reduce ) 云 平台 完成 博客 抽取 、 人 解析 和 模型 创 
建 任务 。 


首先 ， 需 要 在 亚马逊 的 云 存 储 ( storage cloud ) 创建 存储 段 (bucket )。 具 体 做 法 是 用 浏览 
打开 亚马逊 S3 控 制 界面 http : //console.aws.amazon.com/s3, 点 击 Create Bucket。 记 住 存储 段 的 名 字 ， 
稍 后 会 用 到 。 


右键 点 击 新 建 的 存储 段 ， 选 择 Properties。 然 后 ， 修 改 权限 ， 将 其 设置 为 对 所 有 人 开放 。 
一 般 来 说 ， 这 样 做 不 安全 ， 学 完 这 一 章 后 ， 请 及 时 修改 权限 。 


左 键 点 击 存储 段 ， 打 开 它 ， 点 击 Create Folder， 把 新 文件 夹 命名 为 blogs_train。 我 们 将 把 训练 
集 数 据 上 传 到 该 文件 来， 以 便 在 云端 处 理 。 


我 们 在 本 地 计算 机 上 使 用 亚马逊 的 AWS CLI 命 令 行 工 具 操 作 亚 马 逊 云 平台 。 


使 用 以 下 命令 安装 该 工具 。 
















































































Sudo pip2 install awsc1i 
按照 网 址 中 给 出 的 说 明 ， 为 CLI 工 具 设 置 安全 证 书 : http://docs.aws.amazon.com/cli/latest/ 
userguide/cli-chap-getting-set-up.html。 


接 下 来 需要 上 传 数 据 到 新 建 的 存储 段 。 首 先 ， 我 们 创建 训练 集 ， 它 包括 所 有 除去 文件 名 以 6 
或 7 打头 的 文件 。 复 制 文件 有 很 多 种 更 为 优雅 的 方式 ， 但 是 考虑 到 平台 兼容 性 ， 就 不 做 推荐 。 相 
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反 , 我 们 使 用 最 牢靠 的 做 法 , 复制 所 有 的 原始 文件 到 训练 集 文件 夹 ， 把 文件 名 以 6、7 打 头 的 从 训 
练 集中 删除 。 
cp -R ~/Data/blogs ~/Data/blogs train large 


rm ~/Data/blogs train large/6* 
rm ~/Data/blogs train large/7* 


接着 ， 上 传 数据 到 亚马逊 S3 存 储 段 。 注 意 上 传 数据 需要 时 间 较 长 《好几 百 兆 )。 网 速 慢 的 读 
找 个 网 快 的 地 方 上 传 比较 好 。 


aws S3 cp ~/Data/blogs train large/ s3://chl2/blogs train large 
--recursive --exclude "*" --include "*.xml" 


接 下 来 使 用 mrjob 连 接 亚马逊 EMR 一 一 它 帮 助 我 们 处 理 所 有 任务 ; 只 需要 给 出 安全 证 书 即 可 。 
按照 下 面 链接 给 出 的 说 明 ， 为 mriob 设 置 安全 证 书 : https://pythonhosted.org/mrjob/guides/ 
emr-quickstart.html。 


设置 完成 后 , 修改 mrjob 的 运行 方式 , 让 它 在 亚马逊 EMR 上 运行 , 改动 之 处 很 少 。 用 -r 开 关 ， 


告诉 mrjob 使 用 emr。 然后 把 输入 、 输 出 目录 改 为 我 们 在 S3 上 创建 好 的 存储 段 目 录 。 虽然 使 用 亚 马 
逊 云 平 台 , 但 是 运行 时 间 仍 很 长 。 














ow 























python extract posts.py -r emr s3://chl2gender/blogs train large/ 
--output-dir=s3://ch1l2/blogposts train/ --no-output 

Python nb train.py -r emr s3://chl2/blogposts train/ --output-dir=s3:// 
chl2/model/ --o-output 


这 次 使 用 当然 也 是 要 付费 的 ， 但 只 有 几 美 元 "而 已 。 如 果 你 要 持续 运行 或 做 

> 其 他 跟 大 数据 相关 的 任务 ,还 请 留意 下 费用 问题 。 有 一 次 我 运行 大 量 任务 ， 花 了 

Q 20 美 元 。 我 们 这 里 任务 量 要 小 一 些 ， 估 计 花 不 到 4 美元 。 你 可 以 查看 下 账户 余额 ， 
设置 收费 提醒 : https://console.aws.amazon.com/billing/home。 








没 必要 创建 blogposts_train 和 存储 模型 文件 的 文件 夹 一 -EMR 会 自动 创建 。 如 果 这 两 个 
文件 夹 存在 ， 程 序 反而 会 报错 。 如 果 你 再 次 运行 代码 的 话 ， 记 得 把 这 两 个 文件 夹 改 成 别 的 名 字 ， 
但 是 要 记得 同时 修改 两 条 命令 中 的 文件 名 ( 第 一 条 命令 中 的 输出 目录 是 第 二 条 命令 的 输入 目录 )。 














如 果 等 待 时 间 过 长 ， 你 有 些 厌烦 ， 第 一 项 任务 运行 一 段 时 间 后 就 可 以 停止 。 

> 我 建议 至 少 运行 15 分 钟 后 再 停止 ， 可 能 的 话 ， 最 好 1 小 时 以 上 。 你 不 能 中 断 第 二 

SR 项 任务 , 中 断后 结果 好 不 到 哪 去 。 第 二 项 任务 的 运行 时 间 大 约 是 第 一 项 任务 的 两 
到 三 倍 。 














Qz 澳元 和 美元 货币 符号 都 为 $8。 作 者 表示 写 这 本 书 时 ， 两 者 汇率 差别 不 大 ,但 目前 拉 大 了 ， 实 际 费用 用 美元 来 计算 
比较 合适 。 译 者 注 
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回 到 S3 控 制 界面 ,从 存储 段 中 下 载 输出 的 模型 文件 , 将 其 保存 到 本 地 , 我 们 就 可 以 在 笔记 本 
文件 中 使 用 新 模型 。 重 新 输入 以 下 代码 一 一 与 之 前 的 不 同 之 处 用 粗 体 表示 , 其实 只 更 新 了 模型 文 
件 路 径 。 


aws_model_filename = os.path.join(os.path.expandqduser("~")，"modqe1s'"， 
"aws_model") 
aws_model = load model (aws_ model filename) 
y_true = [] 
y_pred = [] 
for actual_gender, predicted gender in nb predict many (aws_model, 
testing_filenames[0]) : 
y_true.append(actual_ gender == "female") 
y_pred.append (Predqictedq_gendqer == "female") 
( 
( 














y_true = np.array (y_true, dtype='int') 
y_pred = np.array (y_pred, dtype='int') 
print ("fl1={:.4f}".format (fl1_scorel(ly_true, y_pred, pos_label=None))) 


使 用 更 多 数据 后 ， 我 们 发 现 F1 值 为 0.81， 结 果 较 之 前 有 所 改善 。 























> 实验 顺利 完成 后 , 如 果 不 想 继续 支付 费用 , 记得 从 亚马逊 S3 删 除 存储 段 _ 
存储 也 是 要 钱 的 。 
12.5 小结 
本 章 研究 的 是 如 何 运行 大 数据 处 理 任务 。 其 实 , 从 各 方面 标准 来 看 , 我 们 的 数据 集 还 是 有 点 
小 一 只 ,很 多 行业 实际 数据 集 都 比 这 大 多 了 ,对 其 进行 计算 就 需要 更 强大 的 计算 能 力 。 











此 外 ， 我 们 所 使 用 的 算法 可 根据 具体 的 任务 做 进步 优 化 ， 以 提升 扩展 能 力 。 


为 了 预测 博 主 的 性 别 ， 我 们 从 博客 文章 中 抽取 词 频 特征 。 我 们 借助 mrjob 包 ， 用 映射 和 规约 
方法 抽取 博客 内 容 和 词 频 。 抽 取 完 成 后 ， 训 练 朴素 贝 叶 斯 分 类 器 ， 预 测 博 主 性 别 。 


我 们 可 以 用 mrjob 包 先 在 本 地 测试 ， 然 后 使 用 亚马逊 的 EMR 云 平台 。 你 也 可 以 使 用 其 他 云 平 
台 ， 甚 至 定制 亚马逊 EMR 集 群 运行 MapReduce 任 务 ， 但 是 需要 更 多 的 操作 才能 跑 起 来 。 
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全 书 正 文部 分 至 此 已 结束 ,学 习 本 书 的 过 程 中 , 也 许 你 已 经 注意 到 有 很 多 路 我 们 没有 走 ， 遇 
到 多 种 选择 的 情况 ,我 们 可 能 只 讲 了 其 中 几 种 ,还 有 些 主题 没有 充分 展开 。 在 附录 部 分 ,我 整理 
了 各 章 进 一 步 学 习 方 向 , 便于 那些 意犹未尽 的 读者 深入 学 习 , 继续 提升 用 Python 挖掘 数据 的 能 
如 果 你 乐于 接受 挑战 的 话 ， 本 章 不 容错 过 。 

附录 按照 章节 来 组 织 ， 每 章 给 出 与 数据 挖掘 相关 的 文章 、 书 籍 或 其 他 资源 ， 同 时 还 就 该 章 控 
掘 任务 提出 新 的 挑战 , 有 时 只 让 读者 做 些小 改进 , 但 也 给 出 了 几 个 工作 量 比较 大 的 挑战 一 一 对 于 
难度 较 大 的 任务 ， 介 绍 内 容 也 会 更 多 一 些 。 














第 1 章 一 一 开始 数据 挖掘 之 旅 


Scikit-learn 教程 


http://scikit-learn.org/stable/tutorial/index.html 

scikit-learn 文 档 提 供 了 一 系列 数据 挖掘 教程 。 教 程 涵 盖 范 围 广 ， 从 适合 新 手 把 玩 的 数据 
集 一 直 介 绍 到 最 近 研 究 所 用 的 技术 。 

想 从 头 到 尾 学 一 遍 这 个 教程 , 不 肯 下 功夫 是 不 行 的 一 一 这 份 教程 很 全 面 一 一 也 值得 在 上 面 下 
功夫 。 























扩展 IPython Notebook 
http://ipython.org/ipython-doc/1/interactive/public server.html 


IPython Notebook 功 能 强大 ， 扩 展 方式 很 多 ， 比 如 可 以 在 别 的 计算 机 上 创建 服务 器 ， 运 行 笔 
记 本 文件 , 在 你 的 主 计算 机 上 访问 即 可 。 如 果 你 的 主 计算 机 性 能 一 般 ， 比 如 配置 还 算 凑 合 的 笔记 
本 电脑 ， 而 其 他 可 以 供 你 支配 的 计算 机 性 能 很 好 ， 使 用 Python Notebook 在 性 能 不 错 的 计算 机 运 
行 服 务 器 是 个 好 主意 。 此 外 ,你 还 可 以 创建 节点 ， 采 用 并 行 方式 处 理 数 据 。 下 面 网 站 有 不 少数 据 
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集 ， 一 并 分 享 给 你 。 
http:/archive.ics.uci.edu/ml/。 


网 上 有 很 多 由 学 术 、 商 业 和 政府 机 构 提供 的 数据 集 。UCI 机 器 学 习 数据 库 里 有 一 系列 标注 好 
的 数据 集 ， 用 它们 来 测试 算法 很 不 错 。 


尝试 下 看 看 OneR 算 法 在 不 同 数据 集 上 的 表现 。 











第 2 章 一 一 用 scikit-learn 估计 器 分 类 


k 近邻 算法 的 扩展 

https://github.com/jnothman/scikit-learn/tree/pr2532 

k- 近 邻 算法 的 简单 实现 速度 很 慢 一 一 它 查 看 任意 两 个 数据 点 是 否 足 够 近 。 当 然 还 有 更 好 的 方 
法 ，scikit-learn 实 现 了 几 种 .。 例 如 ， 我 们 可 以 用 kd-tree 提 升 算法 速度 。 

男 外 一 种 提升 搜索 速度 的 方法 叫 作 局 部 敏感 散 列 ( Locality-Sensitive Hashing，LSH )。 这 是 
对 scikit-learn 提 出 的 一 项 改进 ， 写 作 本 书 时 ,还 没有 加 到 scikit 库 中 。 上 述 链接 为 
scikit-learn 库 的 一 个 开发 分 支 ， 你 可 以 在 数据 集 上 测试 LSH。 具 体 方 法 还 请 参考 该 分 支 的 相 
关 文 档 。 

复制 代码 仓库 ， 按 照 下 述 网 址 给 出 的 方法 ， 安装 最 新 版 本 : http://scikit-learn.org/ 
stable/install.html。 

记 住 要 使 用 这 个 Git 仓 库 的 代码 ,而 不 要 使 用 官方 的 代码 。 我 建议 你 使 用 virtualenv 或 虚拟 


机 安装 ,不 要 直接 将 其 装 到 你 的 计算 机 上 。 这 里 有 一 份 很 棒 的 virtualenv 教 程 : 
http://docs.python-guide.org/en/latest/dev/virtualenvs/。 



































更 多 复杂 的 流水 线 
http://scikit-learn.org/stable/modules/pipeline.html#featureunion-composite-feature-spaces 
书 中 所 用 到 的 流水 线 都 是 线性 的 一 一 上 一 步 的 输出 作为 下 一 步 的 输入 。 


流水 线 也 遵循 转换 器 和 估计 器 的 接口 流水 线 可 以 般 套 , 方便 构造 更 复杂 的 模型 , 再 结合 
使 用 上 述 链接 提 到 的 FeatureUnion" 方 法 ， 流 水 线 将 变 得 更 加 强大 。 




















QD FeatureUnion: 将 多 个 转换 器 对 象 结合 在 一 起 ， 组 成 一 个 新 的 转换 嚣 ， 汇 总 每 个 转换 器 的 输出 结果 。 一 一 译 者 注 
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这 样 一 次 可 以 抽取 多 种 类 型 的 特征 ， 组 成 新 的 数据 集 。 更 多 细节 及 示例 请 见 : 
http://scikit-learn.org/stable/auto_examples/feature stacker.html。 


比较 分 类 器 


scikit-learn 提 供 了 很 多 分 类 需 。 在 选择 分 类 融 时 ， 我 们 需要 考虑 一 系列 因素 。 你 可 以 通 
过 比较 它们 的 F1 值 确定 哪 种 效果 更 好 。 通过 计算 各 F1 值 的 标准 差 , 就 能 确定 几 个 分 类 器 的 分 类 效 
果 之 间 的 差异 是 否 显著 。 

男 外 需要 注意 的 是 ， 儿 个 分 类 咒 应 该 使 用 相同 的 训练 集 和 测试 集 一 一 也 就 是 说 , 第 一 个 分 类 
器 的 测试 数据 ， 应 该 跟 其 他 所 有 分 类 咒 的 测试 数据 相同 。 使 用 相同 的 随机 状态 可 以 保证 这 一 
点 一 一 对 于 重 现实 验 结果 很 重要 。 










































































第 3 草 一 一 用 决策 树 预测 获胜 球 队 


pandas 的 更 多 内 容 

http://pandas.pydata.org/pandas-docs/stable/tutorials.html 

pandas 库 很 周到 一 一 你 加 载 数据 时 所 能 用 到 的 各 种 功能 ， 它 很 可 能 都 已 实现 了 。 更 多 内 容 请 
见 上 面 的 链接 。 

Chris Moffitt 写 了 篇 很 不 错 的 博文 ， 介 绍 常见 的 Excel 数 据 处 理 任务 ， 如 何 用 pandas 完 成 : 
http://pbpython.com/excel-pandas-comp.html。 


你 还 可 以 用 pandas 处 理 大 数据 集 ; 可 以 看 下 StackOverflow 用 户 Jeff 对 以 下 问题 的 解答 ( 写作 
本 书 时 "是 最 佳 答案 )， 了 解 处 理 过 程 : http://stackoverflow.com/questions/14262433/large-data- 
work-flows-using-pandas。 























Brian Connelly 的 pandas 教 程 也 很 棒 : 


http://bconnelly.net/2013/10/summarizing-data-in-python-with-pandas/。 


更 多 复杂 特征 


http:/www.basketball-reference.com/teams/ORL/2014 roster status.html 





Q@ 翻译 本 书 时 依旧 是 最 佳 答案 。 一 一 译 者 注 
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每 个 赛季 不 同 的 比赛 ， 上 场 队员 也 会 有 所 不 同 。 本 来 志在必得 的 比赛 , 很 可 能 因为 核心 球员 
受伤 而 打 得 很 艰难 。 你 可 以 从 篮球 参考 网 站 找到 球 队 的 队员 名 单 。 例 如 ， 上 述 链接 指向 的 就 是 
2013 一 2014 赛 季 奥 兰 多 魔术 队 (Orlando Magic ) 球员 名 单一 一 所 有 NBA 球 队 的 类 似 数 据 都 能 从 
该 网 站 找到 。 


编写 代码 , 整合 队员 异动 信息 ,以 此 作为 新 特征 , 可 以 有 效 提 升 模型 表现 , 但 是 工作 量 不 小 ! 


















































第 4 章 一 一 用 杀 和 性 分 析 方 法 推荐 电影 


新 数据 集 
http:/www2.informatik.uni-freiburg.de/~cziegler/BX/ 


很 多 用 于 特定 领域 推荐 任务 的 数据 集 , 都 值得 探索 ,例如 , Book-Crossing 数 据 集 包 含 来 自 27.8 
万 用 户 的 100 多 万 条 图 书 打分 信息 。 有 些 评价 信息 很 明确 ( 用 户 给 出 分 数 )， 而 有 些 则 很 模糊 。 模 
糊 评价 的 权重 不 应 该 跟 明 确 评价 的 一 样 高 。 


音乐 网 站 www.last.ftm 公 开 了 可 用 于 音乐 推荐 的 数据 集 : http:/www.dtic.upf.edu/~ocelma/ 
MusicRecommendationDataset/。 























这 里 有 一 个 用 于 笑话 推荐 的 数据 集 ! 请 见 http://eigentaste.berkeley.edu/dataset/。 





Eclat 算法 
http:/www.borgelt.net/eclat.html 


本 章 实现 的 Apriori 算 法 是 最 常用 的 关联 规则 挖掘 算法 ,但 不 是 最 好 的 。 比 较 而 言 ，Eclat 算 法 
更 年 轻 也 更 强大 ， 实 现 起 来 也 比较 容易 。 





第 5 章 一 一 用 转换 器 抽取 特征 


增加 噪音 


本 章 讲 到 了 如 何 通过 删除 噪音 来 提升 性 能 ; 然而 ,有 些 数据 集 需 要 增加 噪音 。 原 因 很 简单 一 一 
防止 分 类 器 过 拟 合 训练 数据 ， 从 而 生成 适用 性 更 强 的 规则 (但 过 多 的 噪音 会 导致 模型 过 于 宽泛 ， 
效果 反而 不 好 )。 尝试 实现 往 数 据 集中 添加 噪音 的 转换 需 。 在 UCIML 的 数据 集 上 进行 测试 ， 看 看 
能 否 提升 在 测试 集 上 的 表现 。 


























附录 接 下 来 的 方向 231 





Vowpal Wabbit 
http://hunch.net/~vw/ 


Vowpal Wabbit 项 目 用 于 快速 从 文本 中 抽取 特征 。 它 针对 Python 进 行 了 封装 ， 可 以 直接 在 
Python 代 码 中 调用 。 在 大 数据 集 上 试 试 它 的 效果 ， 比 如 第 12 章 使 用 的 博客 语 料 。 














第 6 章 一 一 使 用 朴素 贝 叶 斯 进行 社会 媒体 挖掘 ” 


垃圾 信息 监测 

http://scikit-learn.org/stable/modules/model evaluation.html#scoring-parameter 

我 们 用 本 章 所 学 到 的 内 容 , 就 可 以 创建 用 来 监测 社会 媒体 广播 是 否 为 垃圾 消息 的 应 用 。 你 可 
以 尝试 创建 由 垃圾 广播 /正常 广播 组 成 的 数据 集 ， 实 现 文本 挖掘 算法 ， 评 估 结 


垃圾 监测 算法 需要 考虑 假 昌 性 和 假 阴 性 的 情况 。 很 多 人 宁愿 多 浏览 几 条 垃圾 信息 , 也 不 愿 因 
为 垃圾 过 滤器 过 于 强大 而 错过 合法 的 信息 。 为 了 满足 人 们 这 一 需求 ,你 可 以 把 F1 值 作为 评估 标准 ， 
用 网 格 搜索 寻找 合适 的 参数 值 ， 具 体 方法 请 见 上 面 链接 。 















































自然 语言 处 理 和 词性 标注 
http:/www.nltk.org/book/ch05.html 


本 章 我 们 所 用 到 的 技术 比 起 其 他 领域 使 用 的 复杂 语言 模型 算是 轻 量 级 。 例如 , 别 的 模型 可 能 
使 用 词性 标注 来 消除 同形 异 义 词 的 歧义 ,提升 准确 性 。NLTK 配 套 的 书 * 有 一 章 专门 讲 这 个 问题 ， 
详细 内 容 请 见 上 面 的 链接 。 全 书 也 很 值得 一 读 。 


























第 7 章 一 一 用 图 挖掘 找到 感 兴趣 的 人 


更 复杂 的 算法 


https:/www.cs.cornell.edu/home/kleinber/link-pred.pdf 


























Ee 





@ 社会 媒体 挖掘 相关 技术 可 参考 人 民 邮 电 出 版 社 出 版 的 《社会 媒体 挖掘》 一 书 。 一 一 编者 注 
@) 中 文 版 书 名 为 《Python 自然 语言 处 理 》 国内 还 可 以 找到 英文 版 的 影印 版 。 据 NLTK 官 网 介绍 2016 年 上 半年 将 出 版 
第 2 版 。 一 一 译 者 注 
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关于 如 何 预测 包括 社交 网 络 在 内 的 图 结构 中 节点 之 间 是 否 存在 边 , 已 经 有 大 量 相 关 研 究 。 例 
如 ，DavidLiben-Nowell 和 Jon Kleinberg 曾 就 这 一 主题 发 表 了 一 篇 论文 ,对 于 更 复杂 算法 的 设计 很 
有 帮助 ， 论 文 请 见 上 面 的 链接 。 








NetworkX 
https://networkx.github.io/ 


如 果 你 以 后 经 常 处 理 图 和 网 络 结构 ， 深 入 研究 NetworkX 很 有 必要 一 一 可 视 化 选项 很 好 用 ， 
算法 实现 也 非常 不 错 。 男 外 一 个 叫 作 SNAP 的 库 也 针对 Python 做 了 封装 ， 请 见 
http://snap.stanford.edu/snappy/index.html。 











第 8 章 一 一 用 神经 网 络 破解 验证 码 


好 (〈 坏 ? ) 验证 码 
http:/scikit-image.org/docs/dev/auto_examples/applications/plot geometric.html 


我 们 所 破解 的 验证 码 比 起 如 今 网 站 常用 的 要 简单 不 少 。 你 可 以 使 用 以 下 技巧 来 提升 破解 
难度 : 
口 采用 不 同 的 转换 方法 。 比 如 scikit-image 所 提供 的 (请 见 上 面 链 接 ) 
口 使 用 不 同 的 颜色 ; 尝试 无 法 很 好 转换 为 灰 度 模式 的 颜色 
口 在 图 像 中 添加 线条 或 其 他 形状 : http://scikit-image.org/docs/dev/api/skimage.draw.html 








深度 网 络 
使 用 上 述 技巧 产生 的 验证 码 会 思 弄 我 们 的 破解 工具 , 我 们 只 好 改进 它 。 尝试 使 用 第 11 章 的 深 
度 网 络 。 
网 络 越 大 , 需要 更 多 数据 ， 因 此 你 可 能 需要 生成 几 千 张 验证 码 图 像 以 达到 好 的 效果 。 数 据 集 
的 生成 适合 用 并 行 方式 来 处 理 一 一 因为 它 包含 大 量 可 以 被 分 别处 理 的 小 任务 。 














增强 学 习 
http://pybrain.org/docs/tutorial/reinforcement-learning.html 


数据 挖掘 领域 的 下 一 个 方向 一 一 增强 学 习 势 头 日 猛 ， 虽 然 它 的 出 现 已 经 有 一 段 时 间 了 ! 
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PyBrain 提 供 了 几 种 增强 学 习 算法 ， 值 得 在 刚 创 建 的 验证 码 数据 集 上 一 试 〈 其 他 数据 集 也 行 ! )。 





第 9 章 一 一 作者 归属 问题 


增加 数据 量 

本 章 预 测 发 件 人 的 应 用 只 使 用 了 一 部 分 邮件 , 数据 集中 还 有 很 多 邮件 可 以 用 。 增加 发 件 人 的 
数量 可 能 会 导致 正确 率 下 降 ， 但 是 使 用 相似 的 方法 也 有 可 能 提升 算法 的 表现 。N 元 语法 中 的 N 以 
及 参数 到 底 取 什么 值 ， 支持 向 量 机 能 达到 最 佳 效果 , 使 用 网 格 搜索 就 能 解决 这 两 个 问题 。 我 们 争 
取 在 发 件 人 数量 很 多 的 情况 下 ， 也 能 取得 好 的 效果 。 























博客 语 料 

第 12 章 博客 语 料 给 出 了 博 主 编号 ( 每 个 编号 代表 一 个 博 主 )， 把 博 主 编号 看 成 是 类 别 ， 就 能 
将 其 用 作 本 章 实 验 语 料 。 此 外 , 性别、 年 龄 、 行 业 和 星座 都 可 以 作为 分 类 任务 来 进行 预测 一 一 解 
决 作者 归属 的 方法 擅长 处 理 这 些 分 类 问题 吗 ? 




















局 部 N 元 语法 
https://github.comy/robertlayton/authorship_tutorials/blob/masterLNGTutorial.ijpynb 


另外 一 种 分 类 器 使 用 局 部 N 元 语法 ， 从 每 个 作者 的 作品 而 不 是 全 部 作者 的 作品 中 选择 最 佳 特 
征 。 我 写 了 一 篇 用 局 部 N 元 语法 解决 作者 归属 问题 的 教程 ， 请 见 上 面 链接 。 
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算法 评价 


聚 类 算法 效果 评价 是 个 大 难题 一 一 一 方面 ,我们 也 能 多 少 知道 好 的 分 篮 结 果 应 该 是 什么 样 
子 ; 另 一 方面 ， 如 果 我 们 确实 知道 ,， 那 就 应 该 标注 一 部 分 数据 ,使 用 有 监督 的 分 类 器 对 数据 进行 






































http:/www.cs.kent.edu/~jin/DMO8/Cluster Validation.pdf 


这 里 有 份 关 于 该 主题 的 更 全 面 (虽然 有 点 过 时 ) 的 一 份 文档 : http://web.itu.edu.tr/sgunduz/ 
courses/verimaden/paper/validity_survey.pdf。 
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scikit-learn 实 现 了 几 种 评价 方法 ,对 它们 的 综述 请 见 http://scikit-learn.org/stable/modules/ 
clustering.htmjl#clustering-performance-evaluation 。 


有 了 这 些 方法 , 你 就 能 评估 使 用 哪些 参数 值 可 以 取得 更 好 的 聚 类 效果 。 网 格 搜索 能 帮助 我 们 
找到 参数 的 最 佳 取 值 一 一 就 像 在 分 类 中 用 到 的 那样 ! 





























近期 趋势 分 析 
你 可 以 运行 我 们 本 章 编 写 的 代码 儿 个 月 。 为 期 间 发 现 的 每 个 簇 添 加 儿 个 标签 , 便于 我 们 了 解 
哪些 主题 一 直 很 活跃 ， 从 而 了 解 近 几 个 月 全 世界 新 闻 焦 点 。 











我 们 可 以 使 用 调整 互信 息 等 评价 标准 ， 比 较 聚 类 结果 , 请 见 上 面 评价 方法 综述 链接 。 观 察 下 
一 个 月 、 两 个 月 、 半 年 和 一 年 之 后 聚 类 的 变化 结 





实时 聚 类 


k-means 算法 可 以 随 着 时 间 的 推进 ， 不 断 训练 和 更 新 ， 而 不 是 在 给 定时 间 内 做 离散 分 析 。 你 
可 以 通过 几 种 方法 跟踪 聚 类 变化 一 一 例如 , 跟踪 每 个 簇 中 频率 最 高 的 儿 个 单词 或 质心 点 每 天 移动 
的 距离 。 别 忘 了 网 站 API 使 用 上 限 一 一 你 可 能 只 需要 每 隔 几 个 小 时 检查 下 有 无 新 数据 ， 就 能 保证 
结果 是 实时 的 。 
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Keras 和 Pylearn2 


如 果 你 想 进一步 了 解 如 何 用 Python 做 深度 学 习 ，Keras 和 Pylearn2 这 两 个 库 有 必要 了 解 一 下 。 
它们 都 是 以 rheano 为 基础 ， 但 各 有 各 的 使 用 方法 和 特点 。 


Keras 请 见 https://github.com/fchollet/keras/。 








Pylearn2 请 见 http://deeplearning.net/software/pylearn2/。 


写作 本 书 时 ， 这 两 个 库 还 不 成 熟 ， 比 较 起 来 Pylearn2 更 稳定 。 它 们 都 能 很 好 完成 你 交 给 它们 
的 任务 ， 在 做 其 他 深度 学 习 项 目 时 ， 可 以 尝试 用 下 。 


另外 一 个 很 火 的 库 叫 Torch, 但 是 写作 本 书 时 ,还 没有 Python 接口 可 用 (请 见 http://torch.ch/ )。 
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Mahotas 
Mahotas 图 像 处 理 包 提供 更 好 和 更 复杂 的 图 像 处 理 方法 ， 使 用 它们 能 提升 正确 率 ， 虽 然 计算 


量 可 能 大 幅 上 升 。 然 而 ,很 多 图 像 处 理 任务 适合 并 行 处 理 ， 所 以 计算 量 加 大 也 不 再 是 问题 。 图 像 
分 类 相关 研究 资料 很 多 ， 下 面 这 两 份 文档 给 出 不 少 资料 ， 可 以 先 从 这 里 找 起 : 























http://luispedro.org/software/mahotas./. 
http://ijarcce.com/upload/january/22-A%20Survey%200n%20Image%20Classification.pdf 
其 他 图 像 数 据 集 有 : 





http://rodrigob.github.io/are we there yet/build/classification datasets results.html 


一 些 学 术 机 构 和 行业 组 织 也 开放 了 很 多 图 像 数据 集 。 上 述 网 站 介绍 了 很 多 数据 集 及 使 用 它们 
的 最 好 算法 。 要 实现 这 样 的 一 些 好 算法 需要 大 量 代码 ， 但 是 回报 远大 于 付出 。 
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Hadoop 课程 


攻 虎 和 谷歌 面向 不 同 水 平 的 开发 者 提供 了 一 系列 非常 实用 的 Hadoop 课 程 。 虽 然 侧 重点 不 在 
Python， 但 是 了 解 Hadoop 概 念 后 ， 再 把 它们 应 用 到 Pydoop 或 其 他 类 似 的 库 都 能 取得 很 好 的 效果 。 























虎 的 课程 : https://developer.yahoo.com/hadoop/tutorial/。 














谷歌 的 课程 : https://cloud.google.com/hadoop/what-is-hadoop。 


Pydoop 
Pydoop 是 一 个 用 来 运行 Hadoop 任 务 的 Python 库 一 一 教程 请 见 http://crs4.github.io/pydoop/ 
tutorial/index.html。 


Pydoop 可 以 跟 HDFS 配 合 使 用 , mrjob 有 类 似 功 能 , 但 在 运行 某 些 任务 时 ,Pydoop 能 给 你 更 多 
的 控制 权 。 

















推荐 引擎 


创建 大 型 的 推荐 引擎 是 测试 你 大 数据 技能 的 好 方法 。Mark Litwintschik 在 他 的 博文 中 介绍 了 
如 何 使 用 大 数据 技术 Apache Spark 创 建 推荐 引擎 , 详 见 http:/tech.marksblogg.com/recommendation- 
engine-spark-python.html。 
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更 多 资源 
Kaggle 竞 赛 : www.kaggle.com/ 


Kaggle 定 期 举行 数据 挖掘 竞 赛 ， 一 般 都 会 提供 奖金 。 参 加 Kaggle 竞 赛 是 学 习 处 理 真 实 场景 
数据 挖掘 任 务 的 好 方法 。 他 们 的 社区 用 户 友善 、 乐 于 分 享 一 一 通常 你 能 见 到 竞赛 前 10 名 选手 分 
享 代码 ! 


Coursera 在 线 学 习 网 站 : 






































WWW.coursera.org 


Coursera 网 站 上 有 很 多 关于 数据 挖掘 和 数据 科学 的 课程 ， 大 多 是 专注 于 某 个 方向 ， 比 如 有 专 
门 讲 大 数据 和 图 像 处 理 的 。 吴 恩 达 ( Andrew Ng ) 老师 的 机 融 学 习 课 程 综合 性 强 , 涉及 面 比 较 广 ， 
这 门 课程 很 受 欢 迎 ， 从 它 开 始 学 起 很 不 错 : https://www.coursera.org/learn/machine-learning/。 


这 门 课 所 讲 的 内 容 比 本 书 难 度 要 大 一 点 ， 感 兴趣 的 读者 可 以 将 其 作为 今后 的 学 习 方向 。 
































神经 网 络 方面 ， 请 留意 下 这 门 课程 : https:/www.coursera.org/course/neuralnets。 


如 果 你 完成 了 上 述 课程 的 学 习 ， 可 以 关注 下 这 门 关 于 概率 图 模型 的 课程 : https:/www. 


coursera.org/course/pgmo 


在 数据 规模 急速 膨胀 的 大 数据 时 代 ， 数 据 挖 掘 这 项 甄别 重要 数据 的 核心 技术 正 发 挥 越 来 越 重 
要 的 作用 。 它 将 赋予 你 解决 实际 问题 的 “ 超 能 力 ”: 预测 体育 赛事 结果 、 精 确 投 放 广告 、 根 据 作 
品 的 风格 解决 作者 归属 问题 ， 等 等 。 


本 书 使 用 简单 易学 目 拥有 丰富 第 三 方 库 和 良好 社区 氛围 的 Python 语言 ， 由 浅 入 深 ， 以 真实 
数据 作为 研究 对 象 ， 真 刀 实 枪 地 向 读者 介绍 Python 数据 挖掘 的 实现 方法 。 通 过 本 书 ， 读 者 将 迈 
入 数据 挖掘 的 殿堂 ， 透 彻 理解 数据 挖掘 基础 知识 ， 掌 握 解决 数据 挖掘 实际 问题 的 最 佳 实践 ! 


理解 决策 树 、 朴 素 贝 叶 斯 、 支 持 向 量 机 和 深度 学 习 
运用 常见 算法 为 解决 现实 问题 建立 数据 模型 
利用 API 从 Reddit 等 网 站 获取 数据 集 

从 数据 集中 找 出 并 提取 特征 

使 用 数据 集 设 计 并 开发 数据 挖掘 应 用 

基于 实时 数据 ， 进 行 大 数据 处 理 


文 亚马逊 读者 评论 


-不错 的 数据 挖掘 读物 。 浅 显 易 懂 ， 是 遇 到 类 似 问题 时 的 绝 佳 参考 书籍。 


“本 书 用 简单 通俗 的 语言 讲解 数据 挖掘 ， 并 附 有 大 量 代码 示例 。 强 烈 推 荐 给 Python 的 新 
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